Tratamiento del texto extraído de los libros digitales para su indexación en los motores de búsqueda

Autores/as

DOI:

https://doi.org/10.26512/rici.v16.n2.2023.42740

Palabras clave:

Curación digital, Recuperación de la información, Tratamiento de textos, Difusión de la información, Indización, Libros digitales

Resumen

Este trabajo presenta una metodología para el tratamiento de los textos extraídos de los libros digitales “500 Preguntas 500 Respuestas” de Embrapa, para que su contenido pueda ser indexado y accedido a través de un motor de búsqueda específico. La metodología presentada implica la extracción de elementos esenciales del libro (como, por ejemplo, imágenes y archivos HTML), el preprocesamiento de estos elementos, su análisis y edición, y por último, la construcción de componentes adecuados para su indexación. Además de un exhaustivo trabajo de análisis humano, se tuvieron en cuenta tecnologías como el formato Epub para libros digitales, el editor Sigil, scripts para el tratamiento de textos, estándares de representación web y Elasticsearch. Los resultados obtenidos muestran que la metodología permite disponer de textos viables para su indexación y su utilización en los motores de búsqueda, proporcionando al usuario una experiencia rica, además de permitir la construcción de nuevas soluciones digitales. En este contexto, la curación digital es fundamental para añadir valor a los recursos digitales y satisfacer las necesidades específicas de los usuarios.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Glauber José Vaz, Embrapa Agricultura Digital, Campinas, SP, Brasil

Glauber José Vaz es Licenciado en Informática por la Universidade Federal de Uberlândia (UFU) desde el año 2000, y tiene una Maestría en Informática por la Universidade Estadual de Campinas (Unicamp) desde 2003. Entre 2003 y 2010 fue profesor universitario en cursos relacionados con la informática en tres instituciones educativas, incluida la Facultad de Tecnología (Unicamp). Desde 2010, trabaja en investigación, desarrollo e innovación en Embrapa Agricultura Digital, en áreas como las de recuperación de información, ciencia de datos y agricultura digital.

Pedro Henrique Rodrigues da Cunha da Veiga, IZagro, Franca, SP, Brasil

Pedro Henrique Rodrigues da Cunha da Veiga es Licenciado en Informática por la Universidade de Franca en São Paulo (2017), Socio Director de Tecnología de IZagro, institución focalizada en ayudar al pequeño/mediano productor con buenas prácticas regenerativas, utilizando información sencilla y clara. Posee experiencia en el desarrollo de aplicaciones web, actuando principalmente en tecnologías de back-end para el procesamiento y tráfico de datos, utilizando Java (Spring boot Data), Python y NodeJS.

Rafael Gomes Caldas, IZagro, Franca, SP, Brasil

Rafael Gomes Caldas es Licenciado en Informática por la Universidade de Franca (2017) y Desarrollador en IZagro desde noviembre de 2018. Tiene experiencia en el desarrollo de aplicaciones web, trabajando principalmente con JavaScript, TypeScript, bases de datos relacionales y no relacionales, y tecnologías de computación en la nube.

Wyviane Carlos Lima Vidal, Embrapa Agroenergia, Brasilia, DF, Brasil

Wyviane Carlos Lima Vidal es Licenciada en Ciencias Biológicas por Universidade Federal da Paraíba desde 1997 y tiene una Maestría en Desarrollo y Medio Ambiente por la Universidade Federal da Paraíba desde 2001. Es investigadora de la Empresa Brasileña de Investigación Agropecuaria (Embrapa) desde 2002. Trabajó en Embrapa Tabuleiros Costeiros, Aracaju, SE, entre 2002 y 2004, en Embrapa Informação Tecnológica, Brasilia, DF, como coeditora de la revista Pesquisa Agropecuária Brasileira, entre 2005 y 2012, como editora de libros y series de Embrapa, entre 2012 y 2018 y en la Editorial y Producción de la Dirección de Comunicación e Información de la Secretaría General de Embrapa, hasta marzo de 2022. Actualmente, trabaja en Embrapa Agroenergia, Brasilia, DF.

Cristiane Pereira de Assis, Embrapa Sede, Superintendência de Comunicação, Brasília, DF, Brasil

Cristiane Pereira de Assis es Licenciada en Agronomía (2002), Máster (2004) y Doctora (2008) en Suelos y Nutrición Vegetal, por la Universidade Federal de Viçosa. Tiene experiencia en el área de la agronomía, con énfasis en la gestión y conservación del suelo. A través de Capes-PNPD, realizó una estadía postdoctoral en el Departamento de Suelos de la Universidad Federal de Ceará, entre 2008 y 2010, dentro del proyecto Calidad del Suelo en el perímetro irrigado Jaguaribe-Apodi, Ceará. Fue profesora de Agronomía en la Universidade Federal do Vale do São Francisco, en los años 2010 y 2011. Actualmente, es investigadora de la Corporación Brasileña de Investigación Agropecuaria, en la que se desempeñó como editora científica de la revista Pesquisa Agropecuária Brasileira desde abril de 2012 hasta enero de 2018. Actualmente, trabaja como editora de libros técnico-científicos para Embrapa, además de formar parte de la coordinación de las plataformas digitales de Embrapa Sistemas de Producción y de la Agencia Embrapa de Información Tecnológica (Ageitec).

Jorge Luiz Correa, Embrapa Agricultura Digital, Campinas, SP, Brasil

Jorge Luiz Correa recibió su Licenciatura y Maestría en Ciencias de la Computación de la Universidade Estadual Paulista (UNESP), en el área de seguridad de redes y sistemas informáticos. Trabajó durante seis años como analista y investigador en el Laboratorio de Investigación en Ciberseguridad ACME de la UNESP. Desarrolló además trabajos de investigación en la detección de ataques a la red en el Instituto Nacional de Ciencia y Tecnología - Sistemas Embebidos Críticos (INCT-SEC) y fue consultor de TI en la Secretaría de Educación del Estado de São Paulo. Actualmente, es analista de infraestructura y seguridad en la Empresa Brasileña de Investigación Agropecuaria (Embrapa), con foco en computación de alto rendimiento en la nube.

Maria Fernanda Moura, Embrapa Agricultura Digital, Campinas, SP, Brasil

Maria Fernanda Moura es Licenciada en Estadística por la Universidade Estadual de Campinas (1987), Máster en Ingeniería Eléctrica por la Universidad Estadual de Campinas (1992) y Doctora en Ciencias de la Computación por la Universidade de São Pablo (2009). Como investigadora de Embrapa Agricultura Digital desde agosto de 1989, tiene experiencia en el área de Probabilidad y Estadística con énfasis en Minería de Datos y Textos, actuando principalmente en los siguientes temas: ciencia de datos, minería de textos, estadística experimental, desarrollo de software científico (Python, R, C++ y Java).

Citas

Bax, M. P.; Resende, L. C. A Curadoria Digital de Dados Científicos no Campo da Ciência da Informação. Perspectivas em Ciência da Informação, Belo Horizonte, v. 25, n. especial, p. 233-251, 2020.

Brayner, A. A. Curadoria digital: novos modelos de participação pública na descrição de conteúdos em instituições culturais. Revista Ibero-Americana de Ciência da Informação, Brasília, v. 12, n. 1, p. 53–65, 2018.

Cordeiro, L. A. M.; Vilela, L.; Kluthcouski, J.; Marchão, R. L. (Ed.). Integração lavoura-pecuária-floresta: o produtor pergunta, a Embrapa responde. Brasília, DF: Embrapa, 2015. (Coleção 500 perguntas, 500 respostas).

Cunha, M .B. da. Digitalização: meta urgente para as bibliotecas. Revista Ibero-Americana de Ciência da Informação, Brasília, v. 15, n. 1, p. 1–5, 2022.

Elastic. Elasticsearch Guide: what is Elasticsearch, 2022. Disponível em: <https://www.elastic.co/guide/en/elasticsearch/reference/current/elasticsearch-intro.html>. Acesso em 29 mar. 2022.

EMBRAPA. Coleção 500 perguntas 500 respostas: Você pergunta, a Embrapa responde. Disponível em: https://mais500p500r.sct.embrapa.br/view/index.php. Acesso em 29 mar. 2022.

Gomes, L. I. E. Transformação digital e Inteligência Artificial nos serviços de informação: inovação e perspectivas para a Ciência da Informação no mundo pós-pandemia. Revista Ibero-Americana de Ciência da Informação, Brasília, v. 15, n. 1, p. 148–166, 2022.

Higgins, S. The DCC Curation Lifecycle Model. International Journal of Digital Curation, v. 3, n. 1, p. 134-140, 2008.

KasmanI, F.; Maniyar, R.; Narvekar, M. Content based search engine for e-books. In: 2020 6th International Conference on Advanced Computing and Communication Systems (ICACCS). Proceedings..., IEEE, 2020. p. 528-533.

Martins, R. D. Obstáculos para expansão do uso dos e-books na sociedade brasileira. RDBCI: Revista Digital de Biblioteconomia e Ciência da Informação, Campinas, v. 14, n. 2, p. 279-297, 2016.

Moreira, F. M. et al. Metadados para descrição de datasets e recursos informacionais do “Portal Brasileiro de Dados Abertos”. Perspectivas em Ciência da Informação, Belo Horizonte, v. 22, n. 3, p. 158-185, 2017.

National Research Council. Preparing the workforce for digital curation. Washington, DC: National Academies Press, 2015.

Oliver, G.; Harvey, R. Digital curation. Chicago: American Library Association, 2016.

Rehm, G. et al. QURATOR: innovative technologies for content and data curation. In: CONFERENCE ON DIGITAL CURATION TECHNOLOGIES (Qurator 2020), Berlin, Germany, 20-21 Jan. 2020. Proceedings..., 2020.

Rusbridge, C. et al. The digital curation centre: a vision for digital curation. In: IEEE INTERNATIONAL SYMPOSIUM ON MASS STORAGE SYSTEMS AND TECHNOLOGY, 2005. Proceedings... IEEE, 2005. p. 31-41.

Tartarotti, R. C .D.; Dal’Evedove, P. R. Avaliação da indexação em repositórios institucionais brasileiros: uma análise comparada entre USP, UNESP e UNICAMP. Revista Ibero-Americana de Ciência da Informação, Brasília, v. 14, n. 2, p. 583–599, 2021.

Teixeira, M. V.; Spiassi, A. O resumo como instrumento de recuperação da informação nos catálogos de bibliotecas. Revista Ibero-Americana de Ciência da Informação, Brasília, v. 15, n. 1, p. 76–88, 2022.

Teixeira, T. M .C.; Valentim, M. L. P. Processo de busca e recuperação de informação em ambientes organizacionais: uma reflexão teórica sobre a subjetividade da informação. Perspectivas em Ciência da Informação, Belo Horizonte, v. 22, p. 82-97, 2017.

Vaz, G. J.; Veiga, P. H. R.; Moura, M. F. Content from the books of Embrapa's 500 Questions 500 Answers Collection (Coleção 500 Perguntas 500 Respostas) treated to be used in digital solutions, Redape, v. 1, 2022. Disponível em: <https://doi.org/10.48432/YIGNPF>. Acesso em 20 dez. 2022.

W3C EPUB 3 Community Group. Epub 3.2: Final Community Group Specification 08 May 2019, 2019a. Disponível em: <https://www.w3.org/publishing/epub32/epub-spec.html>. Acesso em 29 mar. 2022.

W3C EPUB 3 Community Group. Epub Content Documents 3.2: Final Community Group Specification 08 May 2019, 2019b. Disponível em: <https://www.w3.org/publishing/epub32/epub-contentdocs.html>. Acesso em 29 mar. 2022.

Publicado

2023-08-15

Cómo citar

Vaz, G. J., Veiga, P. H. R. da C. da, Caldas, R. G., Vidal, W. C. L., Assis, C. P. de, Correa, J. L., & Moura, M. F. (2023). Tratamiento del texto extraído de los libros digitales para su indexación en los motores de búsqueda. Revista Ibero-Americana De Ciência Da Informação, 16(2), 311–328. https://doi.org/10.26512/rici.v16.n2.2023.42740