Procesamiento del lenguaje natural y aprendizaje automático en la categorización de artículos científicos: un estudio en torno al “patrimonio cultural”
DOI:
https://doi.org/10.26512/rici.v16.n1.2023.47537Palabras clave:
Aprendizaje automático, Procesamiento natural del linguaje, Algoritmo de red neuronal, Algoritmo de agrupamiento jerárquico, Patrimonio culturalResumen
Objetiva verificar el potencial de aplicar técnicas de Procesamiento del Lenguaje Natural (PNL) y Aprendizaje Automático (ML) en la categorización temática de artículos científicos sobre el tema “patrimonio cultural” a partir de dos situaciones en las que se establecen categorías a priori y posteriormente. Se desarrolla una investigación aplicada, con resultados cuantitativos y cualitativos, donde el primer corpus consiste en artículos científicos en portugués, sobre una base temática de Ciencias de la Información, seleccionados y categorizados manualmente; y el segundo corpus, compuesto por artículos científicos en inglés recuperados de la Web of Science, categorizados automáticamente por estrategias de búsqueda y aplicación de booleanos. Ambos fueron sometidos a dos procedimientos de prueba de categorización (algoritmo supervisado y no supervisado). Los resultados muestran que en ambos enfoques la participación del investigador es fundamental para definir la representatividad de la muestra elegida, y que esta tiene un impacto directo en la precisión y exactitud de los algoritmos aplicados. Se destaca la importancia del detalle y rigor en el preprocesamiento de los datos y el tamaño de la muestra, sin embargo, se destaca que, en el caso de este estudio, solo un mayor volumen de datos no garantizaba que los resultados fueran representativos desde el punto de vista de vista del dominio estudiado, lo que advierte que siempre hay discusiones y análisis multidisciplinarios que permiten verificar y reajustar los parámetros de la muestra.
Descargas
Citas
BORKO, H. Information science: what is it? American Documentation, Washington, v. 19, n. 1, p. 3-5, Jan. 1968.
CONEGLIAN, C. S. Recuperação da Informação com abordagem semântica utilizando Linguagem Natural: a Inteligência Artificial na Ciência da Informação. 2020. 194 f. Tese (Doutorado) - Curso de Programa de Pós-Graduação em Ciência da Informação, Universidade Estadual Paulista, Marília, 2020. Disponível em: https://repositorio.unesp.br/bitstream/handle/11449/193051/coneglian_cs_dr_mar.pdf?sequence=3&isAllowed=y. Acesso em: 08 set. 2022.
FERNEDA, E. Recuperação de informação: análise sobre a contribuição da ciência da computação para a ciência da informação. 2003. 137 f. Tese (Doutorado) - Curso de Programa de Pós-Graduação em Ciência da Informação, Universidade Estadual Paulista, Marília, 2003. Disponível em: https://teses.usp.br/teses/disponiveis/27/27143/tde-15032004-130230/fr.php. Acesso em: 08 set. 2022.
JORDAN, M. I.; MITCHELL, T. M. Machine learning: Trends, perspectives, and prospects. Science, v. 349, n. 6245, p. 255-260, 2015. Disponível em: https://www.science.org/doi/abs/10.1126/science.aaa8415. Acesso em: 08 set. 2022.
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2023 Ananda Fernanda de Jesus, Maria Lígia Triques, José Eduardo Santarem Segundo, Ana Cristina de Albuquerque
Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Aviso de derechos de autor/a
Los autores que publican en esta revista concuerdan con los siguientes términos:
Los autores mantiene los derechos autorales y conceden a la revista el derecho de primera publicación, con el trabajo simultáneamente licenciado bajo Creative Commons - Reconocimiento 4.0 Internacional (CC BY 4.0), permitiendo el reparto del trabajo con reconocimiento de la autoría y la publicación inicial en esta revista. Los autores tienen autorización para asumir contratos adicionales separadamente, para la distribución no-exclusiva de la versión del trabajo publicada en esta revista (p.ej.: distribuir en el repositório institucional o publicar como capítulo de libro), con reconocimiento de la autoría y la publicación inicial en esta revista. Los autores tienen permiso y son apoyados a distribuir su trabajo online (p.ej.: en repositórios institucionales o en su página personal) a cualquier punto antes o durante el proceso editorial, ya que eso puede generar efectos productivos, así como aumentar el impacto y la citación del trabajo publicado.