Extração automática de contextos definitórios em textos acadêmicos da ciência da informação
Palavras-chave:
contexto definitório, extração automática de textos, organização da informação, terminologiaResumo
O trabalho apresenta estudo sobre o papel da Ciência da Informação, sua interdisciplinaridade e interseção com a Linguística e a Ciência da Computação no que se refere à utilização dos textos como fonte de informação e conhecimento a ser organizado ou reorganizado, nos grandes repositórios de informação já existentes, com a finalidade de recuperação. A ênfase é na extração automática de Contextos Definitórios em textos, o que se entende como qualquer fragmento textual que introduz e associa um termo a uma definição. Cita teorias de Organização da Informação como Classificação Facetada de Ranganathan, a teoria do Conceito de Dahlberg e as teorias da terminologia, tais como a Teoria Geral da Terminologia de Wüster e a Teoria Comunicativa da Terminologia de Cabré. Todas as teorias são abordadas com enfoque na importância do termo e principalmente da definição como elemento primordial para o mapeamento semântico de um documento e de um domínio do conhecimento. Enfatiza a visão da definição como elemento de ligação entre os objetos e seus conceitos, identifica tipos de definições, cita estudos anteriores de identificação e extração automática de enunciados definitórios em inglês, espanhol e francês. Menciona as técnicas de Processamento de Linguagem Natural e Descoberta de Conhecimento em Textos como ferramentas para o processamento e extração de informação em documentos escritos em língua natural. Por fim, propõe um método de extração automática de Contextos Definitórios em textos acadêmicos da Ciência da Informação, a partir de uma gramática de padrões definitórios em língua portuguesa criada no âmbito da pesquisa. Entende-se gramática de padrões definitórios como um conjunto de expressões linguísticas capazes de identificar um CD em um texto. A gramática foi validada comparando uma extração manual com uma automática. O método foi aplicado nas teses e dissertações da Faculdade de Ciência da Informação
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2016 Carlos Duarte de Oliveira Junior
![Creative Commons License](http://i.creativecommons.org/l/by/4.0/88x31.png)
Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
Notas de direitos autorais
Autores que publicam nesta revista concordam com os seguintes termos: Autores mantém os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Creative Commons Attribution License 4.0, permitindo o compartilhamento do trabalho com reconhecimento da autoria do trabalho e publicação inicial nesta revista. Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: distribuir em repositório institucional ou publicar como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista. Autores têm permissão e são estimulados a distribuir seu trabalho online (ex.: em repositórios institucionais ou na sua página pessoal) a qualquer ponto antes ou durante o processo editorial, já que isso pode gerar alterações produtivas, bem como aumentar o impacto e a citação do trabalho publicado.