Procesamiento del lenguaje natural y aprendizaje automático en la categorización de artículos científicos: un estudio en torno al “patrimonio cultural”

Autores/as

DOI:

https://doi.org/10.26512/rici.v16.n1.2023.47537

Palabras clave:

Aprendizaje automático, Procesamiento natural del linguaje, Algoritmo de red neuronal, Algoritmo de agrupamiento jerárquico, Patrimonio cultural

Resumen

Objetiva verificar el potencial de aplicar técnicas de Procesamiento del Lenguaje Natural (PNL) y Aprendizaje Automático (ML) en la categorización temática de artículos científicos sobre el tema “patrimonio cultural” a partir de dos situaciones en las que se establecen categorías a priori y posteriormente. Se desarrolla una investigación aplicada, con resultados cuantitativos y cualitativos, donde el primer corpus consiste en artículos científicos en portugués, sobre una base temática de Ciencias de la Información, seleccionados y categorizados manualmente; y el segundo corpus, compuesto por artículos científicos en inglés recuperados de la Web of Science, categorizados automáticamente por estrategias de búsqueda y aplicación de booleanos. Ambos fueron sometidos a dos procedimientos de prueba de categorización (algoritmo supervisado y no supervisado). Los resultados muestran que en ambos enfoques la participación del investigador es fundamental para definir la representatividad de la muestra elegida, y que esta tiene un impacto directo en la precisión y exactitud de los algoritmos aplicados. Se destaca la importancia del detalle y rigor en el preprocesamiento de los datos y el tamaño de la muestra, sin embargo, se destaca que, en el caso de este estudio, solo un mayor volumen de datos no garantizaba que los resultados fueran representativos desde el punto de vista de vista del dominio estudiado, lo que advierte que siempre hay discusiones y análisis multidisciplinarios que permiten verificar y reajustar los parámetros de la muestra.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Ananda Fernanda de Jesus, Universidade Estadual Paulista, Programa de Pós-Graduação em Ciência da Informação, Marília, SP, Brasil

Doutoranda no Programa de Pós-Graduação em Ciência da Informação da Universidade Estadual Paulista Júlio de Mesquita Filho (PPGCI UNESP-Marília).

Maria Lígia Triques, Universidade Estadual de Londrina, Programa de Pós-Graduação em Ciência da Informação, Londrina, PR, Brasil

Doutoranda no Programa de Pós-Graduação em Ciência da Informação da Universidade Estadual de Londrina (PPGCI UEL).

José Eduardo Santarem Segundo, Universidade Estadual Paulista, Programa de Pós-Graduação em Ciência da Informação, Marília, SP, Brasil

https://orcid.org/0000-0003-3360-7872

Docente em Informação e Tecnologia pela Universidade de São Paulo (USP), 2020. Pós-doutorado pela Faculdade de Engenharia da Computação da Western University/Canadá, 2018. Doutor e Mestre em Ciência da Informação pela Universidade Estadual Paulista Júlio de Mesquita Filho-UNESP-Marília/SP; Professor Doutor no Departamento de Educação, Informação e Comunicação, da Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto, da Universidade de São Paulo (USP); Docente do Programa de Pós-Graduação em Ciência da Informação da UNESP/Marília na linha de Informação e Tecnologia.

Ana Cristina de Albuquerque, Universidade Estadual de Londrina, Departamento de Ciência da Informação, Londrina, PR, Brasil

Doutora pelo Programa de Pós-Graduação em Ciência da Informação da Universidade Estadual Paulista Júlio de Mesquita Filho (UNESP-Marília). Docente do Departamento de Ciência da Informação da Universidade Estadual de Londrina (UEL). Docente permanente do Programa de Pós-Graduação em Ciência da Informação (PPGCI UEL).

Citas

BORKO, H. Information science: what is it? American Documentation, Washington, v. 19, n. 1, p. 3-5, Jan. 1968.

CONEGLIAN, C. S. Recuperação da Informação com abordagem semântica utilizando Linguagem Natural: a Inteligência Artificial na Ciência da Informação. 2020. 194 f. Tese (Doutorado) - Curso de Programa de Pós-Graduação em Ciência da Informação, Universidade Estadual Paulista, Marília, 2020. Disponível em: https://repositorio.unesp.br/bitstream/handle/11449/193051/coneglian_cs_dr_mar.pdf?sequence=3&isAllowed=y. Acesso em: 08 set. 2022.

FERNEDA, E. Recuperação de informação: análise sobre a contribuição da ciência da computação para a ciência da informação. 2003. 137 f. Tese (Doutorado) - Curso de Programa de Pós-Graduação em Ciência da Informação, Universidade Estadual Paulista, Marília, 2003. Disponível em: https://teses.usp.br/teses/disponiveis/27/27143/tde-15032004-130230/fr.php. Acesso em: 08 set. 2022.

JORDAN, M. I.; MITCHELL, T. M. Machine learning: Trends, perspectives, and prospects. Science, v. 349, n. 6245, p. 255-260, 2015. Disponível em: https://www.science.org/doi/abs/10.1126/science.aaa8415. Acesso em: 08 set. 2022.

Publicado

2023-03-27

Cómo citar

Jesus, A. F. de, Triques, M. L., Segundo, J. E. S., & Albuquerque, A. C. de. (2023). Procesamiento del lenguaje natural y aprendizaje automático en la categorización de artículos científicos: un estudio en torno al “patrimonio cultural”. Revista Ibero-Americana De Ciência Da Informação, 16(1), 167–184. https://doi.org/10.26512/rici.v16.n1.2023.47537

Artículos más leídos del mismo autor/a

Artículos similares

También puede {advancedSearchLink} para este artículo.