Natural language processing and machine learning in the categorization of scientific papers: a study around “cultural heritage”

Authors

DOI:

https://doi.org/10.26512/rici.v16.n1.2023.47537

Keywords:

Machine learning, Natural language processing, Neural network algorithm, Hierarchical clustering algorithm, Cultural heritage

Abstract

Aims to verify the potential of applying Natural Language Processing (NLP) and Machine Learning (ML) techniques in the thematic categorization of scientific articles on the theme “cultural heritage” from two situations in which categories are established a priori and later. Applied research is developed, with quantitative and qualitative results, where the first corpus consisting of scientific articles in Portuguese, on a thematic basis of Information Science, manually selected and categorized; and the second corpus, composed of scientific articles in English retrieved from the Web of Science, automatically categorized by search strategies and application of Booleans. Both were submitted to two categorization test procedures (supervised and unsupervised algorithm). The results show that in both, the participation of the researcher is essential in defining the representativeness of the chosen sample, and this has an impact on the precision and accuracy of the applied algorithms. The importance of detailing and rigor in the pre-processing of data and sample size is highlighted, however, it is emphasized that, in the case of this study, only a larger volume of data did not guarantee that the results were representative from the point of view of the domain studied, which warns that there are always multidisciplinary discussions and analyzes that allow verifying and readjusting the sample parameters.

Downloads

Download data is not yet available.

Author Biographies

Ananda Fernanda de Jesus, Universidade Estadual Paulista, Programa de Pós-Graduação em Ciência da Informação, Marília, SP, Brasil

Doutoranda no Programa de Pós-Graduação em Ciência da Informação da Universidade Estadual Paulista Júlio de Mesquita Filho (PPGCI UNESP-Marília).

Maria Lígia Triques, Universidade Estadual de Londrina, Programa de Pós-Graduação em Ciência da Informação, Londrina, PR, Brasil

Doutoranda no Programa de Pós-Graduação em Ciência da Informação da Universidade Estadual de Londrina (PPGCI UEL).

José Eduardo Santarem Segundo, Universidade Estadual Paulista, Programa de Pós-Graduação em Ciência da Informação, Marília, SP, Brasil

https://orcid.org/0000-0003-3360-7872

Docente em Informação e Tecnologia pela Universidade de São Paulo (USP), 2020. Pós-doutorado pela Faculdade de Engenharia da Computação da Western University/Canadá, 2018. Doutor e Mestre em Ciência da Informação pela Universidade Estadual Paulista Júlio de Mesquita Filho-UNESP-Marília/SP; Professor Doutor no Departamento de Educação, Informação e Comunicação, da Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto, da Universidade de São Paulo (USP); Docente do Programa de Pós-Graduação em Ciência da Informação da UNESP/Marília na linha de Informação e Tecnologia.

Ana Cristina de Albuquerque, Universidade Estadual de Londrina, Departamento de Ciência da Informação, Londrina, PR, Brasil

Doutora pelo Programa de Pós-Graduação em Ciência da Informação da Universidade Estadual Paulista Júlio de Mesquita Filho (UNESP-Marília). Docente do Departamento de Ciência da Informação da Universidade Estadual de Londrina (UEL). Docente permanente do Programa de Pós-Graduação em Ciência da Informação (PPGCI UEL).

References

BORKO, H. Information science: what is it? American Documentation, Washington, v. 19, n. 1, p. 3-5, Jan. 1968.

CONEGLIAN, C. S. Recuperação da Informação com abordagem semântica utilizando Linguagem Natural: a Inteligência Artificial na Ciência da Informação. 2020. 194 f. Tese (Doutorado) - Curso de Programa de Pós-Graduação em Ciência da Informação, Universidade Estadual Paulista, Marília, 2020. Disponível em: https://repositorio.unesp.br/bitstream/handle/11449/193051/coneglian_cs_dr_mar.pdf?sequence=3&isAllowed=y. Acesso em: 08 set. 2022.

FERNEDA, E. Recuperação de informação: análise sobre a contribuição da ciência da computação para a ciência da informação. 2003. 137 f. Tese (Doutorado) - Curso de Programa de Pós-Graduação em Ciência da Informação, Universidade Estadual Paulista, Marília, 2003. Disponível em: https://teses.usp.br/teses/disponiveis/27/27143/tde-15032004-130230/fr.php. Acesso em: 08 set. 2022.

JORDAN, M. I.; MITCHELL, T. M. Machine learning: Trends, perspectives, and prospects. Science, v. 349, n. 6245, p. 255-260, 2015. Disponível em: https://www.science.org/doi/abs/10.1126/science.aaa8415. Acesso em: 08 set. 2022.

Published

2023-03-27

How to Cite

Jesus, A. F. de, Triques, M. L., Segundo, J. E. S., & Albuquerque, A. C. de. (2023). Natural language processing and machine learning in the categorization of scientific papers: a study around “cultural heritage”. Revista Ibero-Americana De Ciência Da Informação, 16(1), 167–184. https://doi.org/10.26512/rici.v16.n1.2023.47537

Most read articles by the same author(s)