Processamento de linguagem natural e machine learning na categorização de artigos científicos: um estudo em torno do “patrimônio cultural”

Autores

DOI:

https://doi.org/10.26512/rici.v16.n1.2023.47537

Palavras-chave:

Aprendizado de máquina, Processamento de linguagem natural, Algoritmo de rede neural, Algoritmo de clusterização hierárquica, Patrimônio cultural

Resumo

Objetiva verificar o potencial de aplicação de técnicas de Processamento de Linguagem Natural (PLN) e de Machine Learning (ML) na categorização temática de artigos científicos sobre a temática “patrimônio cultural” a partir de duas situações em que categorias são estabelecidas a priori e a posteriori. Desenvolve-se uma pesquisa aplicada, com resultados quantitativos e qualitativos. O primeiro corpus é constituído de artigos científicos em português, em base temática da Ciência da Informação, selecionados e categorizados manualmente; e o segundo corpus, composto por artigos científicos em inglês recuperados na Web of Science, categorizados de forma automática por estratégias de busca e aplicação de booleanos. Ambos foram submetidos à dois procedimentos de teste de categorização (algoritmo supervisionado e não supervisionado). Os resultados demonstram que em ambas a participação do pesquisador é essencial na definição da representatividade da amostra escolhida, e que esta tem impacto direto na precisão e acurácia dos algoritmos aplicados. Destaca-se a importância do detalhamento e rigor no pré-processamento dos dados e do tamanho da amostra, contudo, ressalta-se que, no caso deste estudo, somente um volume maior de dados não garantiu que os resultados fossem representativos do ponto de vista do domínio estudado, o que alerta para que haja sempre discussões e análises multidisciplinares que permitam verificar e readequar os parâmetros da amostra.

Downloads

Não há dados estatísticos.

Biografia do Autor

Ananda Fernanda de Jesus, Universidade Estadual Paulista, Programa de Pós-Graduação em Ciência da Informação, Marília, SP, Brasil

Doutoranda no Programa de Pós-Graduação em Ciência da Informação da Universidade Estadual Paulista Júlio de Mesquita Filho (PPGCI UNESP-Marília).

Maria Lígia Triques, Universidade Estadual de Londrina, Programa de Pós-Graduação em Ciência da Informação, Londrina, PR, Brasil

Doutoranda no Programa de Pós-Graduação em Ciência da Informação da Universidade Estadual de Londrina (PPGCI UEL).

José Eduardo Santarem Segundo, Universidade Estadual Paulista, Programa de Pós-Graduação em Ciência da Informação, Marília, SP, Brasil

https://orcid.org/0000-0003-3360-7872

Docente em Informação e Tecnologia pela Universidade de São Paulo (USP), 2020. Pós-doutorado pela Faculdade de Engenharia da Computação da Western University/Canadá, 2018. Doutor e Mestre em Ciência da Informação pela Universidade Estadual Paulista Júlio de Mesquita Filho-UNESP-Marília/SP; Professor Doutor no Departamento de Educação, Informação e Comunicação, da Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto, da Universidade de São Paulo (USP); Docente do Programa de Pós-Graduação em Ciência da Informação da UNESP/Marília na linha de Informação e Tecnologia.

Ana Cristina de Albuquerque, Universidade Estadual de Londrina, Departamento de Ciência da Informação, Londrina, PR, Brasil

Doutora pelo Programa de Pós-Graduação em Ciência da Informação da Universidade Estadual Paulista Júlio de Mesquita Filho (UNESP-Marília). Docente do Departamento de Ciência da Informação da Universidade Estadual de Londrina (UEL). Docente permanente do Programa de Pós-Graduação em Ciência da Informação (PPGCI UEL).

Referências

BORKO, H. Information science: what is it? American Documentation, Washington, v. 19, n. 1, p. 3-5, Jan. 1968.

CONEGLIAN, C. S. Recuperação da Informação com abordagem semântica utilizando Linguagem Natural: a Inteligência Artificial na Ciência da Informação. 2020. 194 f. Tese (Doutorado) - Curso de Programa de Pós-Graduação em Ciência da Informação, Universidade Estadual Paulista, Marília, 2020. Disponível em: https://repositorio.unesp.br/bitstream/handle/11449/193051/coneglian_cs_dr_mar.pdf?sequence=3&isAllowed=y. Acesso em: 08 set. 2022.

FERNEDA, E. Recuperação de informação: análise sobre a contribuição da ciência da computação para a ciência da informação. 2003. 137 f. Tese (Doutorado) - Curso de Programa de Pós-Graduação em Ciência da Informação, Universidade Estadual Paulista, Marília, 2003. Disponível em: https://teses.usp.br/teses/disponiveis/27/27143/tde-15032004-130230/fr.php. Acesso em: 08 set. 2022.

JORDAN, M. I.; MITCHELL, T. M. Machine learning: Trends, perspectives, and prospects. Science, v. 349, n. 6245, p. 255-260, 2015. Disponível em: https://www.science.org/doi/abs/10.1126/science.aaa8415. Acesso em: 08 set. 2022.

Downloads

Publicado

2023-03-27

Como Citar

Jesus, A. F. de, Triques, M. L., Segundo, J. E. S., & Albuquerque, A. C. de. (2023). Processamento de linguagem natural e machine learning na categorização de artigos científicos: um estudo em torno do “patrimônio cultural”. Revista Ibero-Americana De Ciência Da Informação, 16(1), 167–184. https://doi.org/10.26512/rici.v16.n1.2023.47537

Artigos mais lidos pelo mesmo(s) autor(es)