Extração automática de contextos definitórios em textos acadêmicos da ciência da informação
Palavras-chave:
contexto definitório, extração automática de textos, organização da informação, terminologiaResumo
O trabalho apresenta estudo sobre o papel da Ciência da Informação, sua interdisciplinaridade e interseção com a Linguística e a Ciência da Computação no que se refere à utilização dos textos como fonte de informação e conhecimento a ser organizado ou reorganizado, nos grandes repositórios de informação já existentes, com a finalidade de recuperação. A ênfase é na extração automática de Contextos Definitórios em textos, o que se entende como qualquer fragmento textual que introduz e associa um termo a uma definição. Cita teorias de Organização da Informação como Classificação Facetada de Ranganathan, a teoria do Conceito de Dahlberg e as teorias da terminologia, tais como a Teoria Geral da Terminologia de Wüster e a Teoria Comunicativa da Terminologia de Cabré. Todas as teorias são abordadas com enfoque na importância do termo e principalmente da definição como elemento primordial para o mapeamento semântico de um documento e de um domínio do conhecimento. Enfatiza a visão da definição como elemento de ligação entre os objetos e seus conceitos, identifica tipos de definições, cita estudos anteriores de identificação e extração automática de enunciados definitórios em inglês, espanhol e francês. Menciona as técnicas de Processamento de Linguagem Natural e Descoberta de Conhecimento em Textos como ferramentas para o processamento e extração de informação em documentos escritos em língua natural. Por fim, propõe um método de extração automática de Contextos Definitórios em textos acadêmicos da Ciência da Informação, a partir de uma gramática de padrões definitórios em língua portuguesa criada no âmbito da pesquisa. Entende-se gramática de padrões definitórios como um conjunto de expressões linguísticas capazes de identificar um CD em um texto. A gramática foi validada comparando uma extração manual com uma automática. O método foi aplicado nas teses e dissertações da Faculdade de Ciência da Informação
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2016 Carlos Duarte de Oliveira Junior
Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
Notas de direitos autorais
Autores que publicam nesta revista concordam com os seguintes termos: Autores mantém os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Creative Commons Attribution License 4.0, permitindo o compartilhamento do trabalho com reconhecimento da autoria do trabalho e publicação inicial nesta revista. Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: distribuir em repositório institucional ou publicar como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista. Autores têm permissão e são estimulados a distribuir seu trabalho online (ex.: em repositórios institucionais ou na sua página pessoal) a qualquer ponto antes ou durante o processo editorial, já que isso pode gerar alterações produtivas, bem como aumentar o impacto e a citação do trabalho publicado.