Tratamiento del texto extraído de los libros digitales para su indexación en los motores de búsqueda
DOI:
https://doi.org/10.26512/rici.v16.n2.2023.42740Palabras clave:
Curación digital, Recuperación de la información, Tratamiento de textos, Difusión de la información, Indización, Libros digitalesResumen
Este trabajo presenta una metodología para el tratamiento de los textos extraídos de los libros digitales “500 Preguntas 500 Respuestas” de Embrapa, para que su contenido pueda ser indexado y accedido a través de un motor de búsqueda específico. La metodología presentada implica la extracción de elementos esenciales del libro (como, por ejemplo, imágenes y archivos HTML), el preprocesamiento de estos elementos, su análisis y edición, y por último, la construcción de componentes adecuados para su indexación. Además de un exhaustivo trabajo de análisis humano, se tuvieron en cuenta tecnologías como el formato Epub para libros digitales, el editor Sigil, scripts para el tratamiento de textos, estándares de representación web y Elasticsearch. Los resultados obtenidos muestran que la metodología permite disponer de textos viables para su indexación y su utilización en los motores de búsqueda, proporcionando al usuario una experiencia rica, además de permitir la construcción de nuevas soluciones digitales. En este contexto, la curación digital es fundamental para añadir valor a los recursos digitales y satisfacer las necesidades específicas de los usuarios.
Descargas
Citas
Bax, M. P.; Resende, L. C. A Curadoria Digital de Dados Científicos no Campo da Ciência da Informação. Perspectivas em Ciência da Informação, Belo Horizonte, v. 25, n. especial, p. 233-251, 2020.
Brayner, A. A. Curadoria digital: novos modelos de participação pública na descrição de conteúdos em instituições culturais. Revista Ibero-Americana de Ciência da Informação, Brasília, v. 12, n. 1, p. 53–65, 2018.
Cordeiro, L. A. M.; Vilela, L.; Kluthcouski, J.; Marchão, R. L. (Ed.). Integração lavoura-pecuária-floresta: o produtor pergunta, a Embrapa responde. Brasília, DF: Embrapa, 2015. (Coleção 500 perguntas, 500 respostas).
Cunha, M .B. da. Digitalização: meta urgente para as bibliotecas. Revista Ibero-Americana de Ciência da Informação, Brasília, v. 15, n. 1, p. 1–5, 2022.
Elastic. Elasticsearch Guide: what is Elasticsearch, 2022. Disponível em: <https://www.elastic.co/guide/en/elasticsearch/reference/current/elasticsearch-intro.html>. Acesso em 29 mar. 2022.
EMBRAPA. Coleção 500 perguntas 500 respostas: Você pergunta, a Embrapa responde. Disponível em: https://mais500p500r.sct.embrapa.br/view/index.php. Acesso em 29 mar. 2022.
Gomes, L. I. E. Transformação digital e Inteligência Artificial nos serviços de informação: inovação e perspectivas para a Ciência da Informação no mundo pós-pandemia. Revista Ibero-Americana de Ciência da Informação, Brasília, v. 15, n. 1, p. 148–166, 2022.
Higgins, S. The DCC Curation Lifecycle Model. International Journal of Digital Curation, v. 3, n. 1, p. 134-140, 2008.
KasmanI, F.; Maniyar, R.; Narvekar, M. Content based search engine for e-books. In: 2020 6th International Conference on Advanced Computing and Communication Systems (ICACCS). Proceedings..., IEEE, 2020. p. 528-533.
Martins, R. D. Obstáculos para expansão do uso dos e-books na sociedade brasileira. RDBCI: Revista Digital de Biblioteconomia e Ciência da Informação, Campinas, v. 14, n. 2, p. 279-297, 2016.
Moreira, F. M. et al. Metadados para descrição de datasets e recursos informacionais do “Portal Brasileiro de Dados Abertos”. Perspectivas em Ciência da Informação, Belo Horizonte, v. 22, n. 3, p. 158-185, 2017.
National Research Council. Preparing the workforce for digital curation. Washington, DC: National Academies Press, 2015.
Oliver, G.; Harvey, R. Digital curation. Chicago: American Library Association, 2016.
Rehm, G. et al. QURATOR: innovative technologies for content and data curation. In: CONFERENCE ON DIGITAL CURATION TECHNOLOGIES (Qurator 2020), Berlin, Germany, 20-21 Jan. 2020. Proceedings..., 2020.
Rusbridge, C. et al. The digital curation centre: a vision for digital curation. In: IEEE INTERNATIONAL SYMPOSIUM ON MASS STORAGE SYSTEMS AND TECHNOLOGY, 2005. Proceedings... IEEE, 2005. p. 31-41.
Tartarotti, R. C .D.; Dal’Evedove, P. R. Avaliação da indexação em repositórios institucionais brasileiros: uma análise comparada entre USP, UNESP e UNICAMP. Revista Ibero-Americana de Ciência da Informação, Brasília, v. 14, n. 2, p. 583–599, 2021.
Teixeira, M. V.; Spiassi, A. O resumo como instrumento de recuperação da informação nos catálogos de bibliotecas. Revista Ibero-Americana de Ciência da Informação, Brasília, v. 15, n. 1, p. 76–88, 2022.
Teixeira, T. M .C.; Valentim, M. L. P. Processo de busca e recuperação de informação em ambientes organizacionais: uma reflexão teórica sobre a subjetividade da informação. Perspectivas em Ciência da Informação, Belo Horizonte, v. 22, p. 82-97, 2017.
Vaz, G. J.; Veiga, P. H. R.; Moura, M. F. Content from the books of Embrapa's 500 Questions 500 Answers Collection (Coleção 500 Perguntas 500 Respostas) treated to be used in digital solutions, Redape, v. 1, 2022. Disponível em: <https://doi.org/10.48432/YIGNPF>. Acesso em 20 dez. 2022.
W3C EPUB 3 Community Group. Epub 3.2: Final Community Group Specification 08 May 2019, 2019a. Disponível em: <https://www.w3.org/publishing/epub32/epub-spec.html>. Acesso em 29 mar. 2022.
W3C EPUB 3 Community Group. Epub Content Documents 3.2: Final Community Group Specification 08 May 2019, 2019b. Disponível em: <https://www.w3.org/publishing/epub32/epub-contentdocs.html>. Acesso em 29 mar. 2022.
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2023 Glauber José Vaz, Pedro Henrique Rodrigues da Cunha da Veiga, Rafael Gomes Caldas, Wyviane Carlos Lima Vidal, Cristiane Pereira de Assis, Jorge Luiz Correa, Maria Fernanda Moura
Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Aviso de derechos de autor/a
Los autores que publican en esta revista concuerdan con los siguientes términos:
Los autores mantiene los derechos autorales y conceden a la revista el derecho de primera publicación, con el trabajo simultáneamente licenciado bajo Creative Commons - Reconocimiento 4.0 Internacional (CC BY 4.0), permitiendo el reparto del trabajo con reconocimiento de la autoría y la publicación inicial en esta revista. Los autores tienen autorización para asumir contratos adicionales separadamente, para la distribución no-exclusiva de la versión del trabajo publicada en esta revista (p.ej.: distribuir en el repositório institucional o publicar como capítulo de libro), con reconocimiento de la autoría y la publicación inicial en esta revista. Los autores tienen permiso y son apoyados a distribuir su trabajo online (p.ej.: en repositórios institucionales o en su página personal) a cualquier punto antes o durante el proceso editorial, ya que eso puede generar efectos productivos, así como aumentar el impacto y la citación del trabajo publicado.