Treatment of text extracted from digital books for search engine indexing
DOI:
https://doi.org/10.26512/rici.v16.n2.2023.42740Keywords:
Digital curation, Information retrieval, Text processing, Dissemination of information, Indexing, Digital booksAbstract
This article presents a methodology for treating texts extracted from digital books from Embrapa's 500 Questions 500 Answers Collection to index their content and to allow its access via a search engine. The methodology involves extracting the essential elements of the books, such as images and HTML files; pre-processing them; analyzing and editing them; and building suitable components for their indexing. In addition to a large amount of human analysis, the technologies used are Epub format for digital books, the Sigil editor, scripts for text processing, web representation standards, and Elasticsearch. The results show that this method can provide well-formatted texts for indexing and use in search engines, giving a rich user experience and enabling the construction of new digital solutions. Therefore, such a digital curation is essential for adding value to digital resources and meeting specific user needs.
Downloads
References
Bax, M. P.; Resende, L. C. A Curadoria Digital de Dados Científicos no Campo da Ciência da Informação. Perspectivas em Ciência da Informação, Belo Horizonte, v. 25, n. especial, p. 233-251, 2020.
Brayner, A. A. Curadoria digital: novos modelos de participação pública na descrição de conteúdos em instituições culturais. Revista Ibero-Americana de Ciência da Informação, Brasília, v. 12, n. 1, p. 53–65, 2018.
Cordeiro, L. A. M.; Vilela, L.; Kluthcouski, J.; Marchão, R. L. (Ed.). Integração lavoura-pecuária-floresta: o produtor pergunta, a Embrapa responde. Brasília, DF: Embrapa, 2015. (Coleção 500 perguntas, 500 respostas).
Cunha, M .B. da. Digitalização: meta urgente para as bibliotecas. Revista Ibero-Americana de Ciência da Informação, Brasília, v. 15, n. 1, p. 1–5, 2022.
Elastic. Elasticsearch Guide: what is Elasticsearch, 2022. Disponível em: <https://www.elastic.co/guide/en/elasticsearch/reference/current/elasticsearch-intro.html>. Acesso em 29 mar. 2022.
EMBRAPA. Coleção 500 perguntas 500 respostas: Você pergunta, a Embrapa responde. Disponível em: https://mais500p500r.sct.embrapa.br/view/index.php. Acesso em 29 mar. 2022.
Gomes, L. I. E. Transformação digital e Inteligência Artificial nos serviços de informação: inovação e perspectivas para a Ciência da Informação no mundo pós-pandemia. Revista Ibero-Americana de Ciência da Informação, Brasília, v. 15, n. 1, p. 148–166, 2022.
Higgins, S. The DCC Curation Lifecycle Model. International Journal of Digital Curation, v. 3, n. 1, p. 134-140, 2008.
KasmanI, F.; Maniyar, R.; Narvekar, M. Content based search engine for e-books. In: 2020 6th International Conference on Advanced Computing and Communication Systems (ICACCS). Proceedings..., IEEE, 2020. p. 528-533.
Martins, R. D. Obstáculos para expansão do uso dos e-books na sociedade brasileira. RDBCI: Revista Digital de Biblioteconomia e Ciência da Informação, Campinas, v. 14, n. 2, p. 279-297, 2016.
Moreira, F. M. et al. Metadados para descrição de datasets e recursos informacionais do “Portal Brasileiro de Dados Abertos”. Perspectivas em Ciência da Informação, Belo Horizonte, v. 22, n. 3, p. 158-185, 2017.
National Research Council. Preparing the workforce for digital curation. Washington, DC: National Academies Press, 2015.
Oliver, G.; Harvey, R. Digital curation. Chicago: American Library Association, 2016.
Rehm, G. et al. QURATOR: innovative technologies for content and data curation. In: CONFERENCE ON DIGITAL CURATION TECHNOLOGIES (Qurator 2020), Berlin, Germany, 20-21 Jan. 2020. Proceedings..., 2020.
Rusbridge, C. et al. The digital curation centre: a vision for digital curation. In: IEEE INTERNATIONAL SYMPOSIUM ON MASS STORAGE SYSTEMS AND TECHNOLOGY, 2005. Proceedings... IEEE, 2005. p. 31-41.
Tartarotti, R. C .D.; Dal’Evedove, P. R. Avaliação da indexação em repositórios institucionais brasileiros: uma análise comparada entre USP, UNESP e UNICAMP. Revista Ibero-Americana de Ciência da Informação, Brasília, v. 14, n. 2, p. 583–599, 2021.
Teixeira, M. V.; Spiassi, A. O resumo como instrumento de recuperação da informação nos catálogos de bibliotecas. Revista Ibero-Americana de Ciência da Informação, Brasília, v. 15, n. 1, p. 76–88, 2022.
Teixeira, T. M .C.; Valentim, M. L. P. Processo de busca e recuperação de informação em ambientes organizacionais: uma reflexão teórica sobre a subjetividade da informação. Perspectivas em Ciência da Informação, Belo Horizonte, v. 22, p. 82-97, 2017.
Vaz, G. J.; Veiga, P. H. R.; Moura, M. F. Content from the books of Embrapa's 500 Questions 500 Answers Collection (Coleção 500 Perguntas 500 Respostas) treated to be used in digital solutions, Redape, v. 1, 2022. Disponível em: <https://doi.org/10.48432/YIGNPF>. Acesso em 20 dez. 2022.
W3C EPUB 3 Community Group. Epub 3.2: Final Community Group Specification 08 May 2019, 2019a. Disponível em: <https://www.w3.org/publishing/epub32/epub-spec.html>. Acesso em 29 mar. 2022.
W3C EPUB 3 Community Group. Epub Content Documents 3.2: Final Community Group Specification 08 May 2019, 2019b. Disponível em: <https://www.w3.org/publishing/epub32/epub-contentdocs.html>. Acesso em 29 mar. 2022.
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2023 Glauber José Vaz, Pedro Henrique Rodrigues da Cunha da Veiga, Rafael Gomes Caldas, Wyviane Carlos Lima Vidal, Cristiane Pereira de Assis, Jorge Luiz Correa, Maria Fernanda Moura
This work is licensed under a Creative Commons Attribution 4.0 International License.
Copyright Notice
Authors who publish in this journal agree to the following terms:
- Authors retain copyright and grant the journal right of first publication with the work simultaneously licensed under the Creative Commons Attribution License 4.0, allowing the sharing of work and recognition of the work of authorship and initial publication in this journal.
- Authors are able to take on additional contracts separately, non-exclusive distribution of the version of the paper published in this journal (ex.: distribute to an institutional repository or publish as a book), with an acknowledgment of its initial publication in this journal.
- Authors are permitted and encouraged to distribute their work online (eg.: in institutional repositories or on their website) at any point before or during the editorial process, as it can lead to productive exchanges, as well as increase the impact and citation the published work.