Processamento de linguagem natural e machine learning na categorização de artigos científicos: um estudo em torno do “patrimônio cultural”
DOI:
https://doi.org/10.26512/rici.v16.n1.2023.47537Palavras-chave:
Aprendizado de máquina, Processamento de linguagem natural, Algoritmo de rede neural, Algoritmo de clusterização hierárquica, Patrimônio culturalResumo
Objetiva verificar o potencial de aplicação de técnicas de Processamento de Linguagem Natural (PLN) e de Machine Learning (ML) na categorização temática de artigos científicos sobre a temática “patrimônio cultural” a partir de duas situações em que categorias são estabelecidas a priori e a posteriori. Desenvolve-se uma pesquisa aplicada, com resultados quantitativos e qualitativos. O primeiro corpus é constituído de artigos científicos em português, em base temática da Ciência da Informação, selecionados e categorizados manualmente; e o segundo corpus, composto por artigos científicos em inglês recuperados na Web of Science, categorizados de forma automática por estratégias de busca e aplicação de booleanos. Ambos foram submetidos à dois procedimentos de teste de categorização (algoritmo supervisionado e não supervisionado). Os resultados demonstram que em ambas a participação do pesquisador é essencial na definição da representatividade da amostra escolhida, e que esta tem impacto direto na precisão e acurácia dos algoritmos aplicados. Destaca-se a importância do detalhamento e rigor no pré-processamento dos dados e do tamanho da amostra, contudo, ressalta-se que, no caso deste estudo, somente um volume maior de dados não garantiu que os resultados fossem representativos do ponto de vista do domínio estudado, o que alerta para que haja sempre discussões e análises multidisciplinares que permitam verificar e readequar os parâmetros da amostra.
Downloads
Referências
BORKO, H. Information science: what is it? American Documentation, Washington, v. 19, n. 1, p. 3-5, Jan. 1968.
CONEGLIAN, C. S. Recuperação da Informação com abordagem semântica utilizando Linguagem Natural: a Inteligência Artificial na Ciência da Informação. 2020. 194 f. Tese (Doutorado) - Curso de Programa de Pós-Graduação em Ciência da Informação, Universidade Estadual Paulista, Marília, 2020. Disponível em: https://repositorio.unesp.br/bitstream/handle/11449/193051/coneglian_cs_dr_mar.pdf?sequence=3&isAllowed=y. Acesso em: 08 set. 2022.
FERNEDA, E. Recuperação de informação: análise sobre a contribuição da ciência da computação para a ciência da informação. 2003. 137 f. Tese (Doutorado) - Curso de Programa de Pós-Graduação em Ciência da Informação, Universidade Estadual Paulista, Marília, 2003. Disponível em: https://teses.usp.br/teses/disponiveis/27/27143/tde-15032004-130230/fr.php. Acesso em: 08 set. 2022.
JORDAN, M. I.; MITCHELL, T. M. Machine learning: Trends, perspectives, and prospects. Science, v. 349, n. 6245, p. 255-260, 2015. Disponível em: https://www.science.org/doi/abs/10.1126/science.aaa8415. Acesso em: 08 set. 2022.
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2023 Ananda Fernanda de Jesus, Maria Lígia Triques, José Eduardo Santarem Segundo, Ana Cristina de Albuquerque
Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
Notas de direitos autorais
Autores que publicam nesta revista concordam com os seguintes termos: Autores mantém os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Creative Commons Attribution License 4.0, permitindo o compartilhamento do trabalho com reconhecimento da autoria do trabalho e publicação inicial nesta revista. Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: distribuir em repositório institucional ou publicar como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista. Autores têm permissão e são estimulados a distribuir seu trabalho online (ex.: em repositórios institucionais ou na sua página pessoal) a qualquer ponto antes ou durante o processo editorial, já que isso pode gerar alterações produtivas, bem como aumentar o impacto e a citação do trabalho publicado.