Extração automática de contextos definitórios em textos acadêmicos da ciência da informação
Keywords:
definitive context, automatic text extraction, organization of information, terminologyAbstract
O trabalho apresenta estudo sobre o papel da Ciência da Informação, sua interdisciplinaridade e interseção com a Linguística e a Ciência da Computação no que se refere à utilização dos textos como fonte de informação e conhecimento a ser organizado ou reorganizado, nos grandes repositórios de informação já existentes, com a finalidade de recuperação. A ênfase é na extração automática de Contextos Definitórios em textos, o que se entende como qualquer fragmento textual que introduz e associa um termo a uma definição. Cita teorias de Organização da Informação como Classificação Facetada de Ranganathan, a teoria do Conceito de Dahlberg e as teorias da terminologia, tais como a Teoria Geral da Terminologia de Wüster e a Teoria Comunicativa da Terminologia de Cabré. Todas as teorias são abordadas com enfoque na importância do termo e principalmente da definição como elemento primordial para o mapeamento semântico de um documento e de um domínio do conhecimento. Enfatiza a visão da definição como elemento de ligação entre os objetos e seus conceitos, identifica tipos de definições, cita estudos anteriores de identificação e extração automática de enunciados definitórios em inglês, espanhol e francês. Menciona as técnicas de Processamento de Linguagem Natural e Descoberta de Conhecimento em Textos como ferramentas para o processamento e extração de informação em documentos escritos em língua natural. Por fim, propõe um método de extração automática de Contextos Definitórios em textos acadêmicos da Ciência da Informação, a partir de uma gramática de padrões definitórios em língua portuguesa criada no âmbito da pesquisa. Entende-se gramática de padrões definitórios como um conjunto de expressões linguísticas capazes de identificar um CD em um texto. A gramática foi validada comparando uma extração manual com uma automática. O método foi aplicado nas teses e dissertações da Faculdade de Ciência da Informação
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2016 Carlos Duarte de Oliveira Junior
This work is licensed under a Creative Commons Attribution 4.0 International License.
Copyright Notice
Authors who publish in this journal agree to the following terms:
- Authors retain copyright and grant the journal right of first publication with the work simultaneously licensed under the Creative Commons Attribution License 4.0, allowing the sharing of work and recognition of the work of authorship and initial publication in this journal.
- Authors are able to take on additional contracts separately, non-exclusive distribution of the version of the paper published in this journal (ex.: distribute to an institutional repository or publish as a book), with an acknowledgment of its initial publication in this journal.
- Authors are permitted and encouraged to distribute their work online (eg.: in institutional repositories or on their website) at any point before or during the editorial process, as it can lead to productive exchanges, as well as increase the impact and citation the published work.