Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca

Autores

DOI:

https://doi.org/10.26512/rici.v16.n2.2023.42740

Palavras-chave:

Curadoria digital, Recuperação da informação, Processamento de texto, Disseminação da Informação, Indexação, Livros digitais

Resumo

Este trabalho apresenta uma metodologia de tratamento dos textos extraídos dos livros digitais da Coleção 500 Perguntas 500 Respostas da Embrapa a fim de que seu conteúdo possa ser indexado e acessado via um mecanismo de busca específico. A metodologia envolve a extração dos elementos essenciais dos livros, como imagens e arquivos HTML, o pré-processamento desses elementos, sua análise e edição, e a construção de componentes adequados para sua indexação. Além de um intenso trabalho de análise humana, são consideradas tecnologias como o formato Epub para livros digitais, o editor Sigil, scripts para processamento de texto, padrões web de representação e Elasticsearch. Experimentos mostram que a metodologia viabiliza a disponibilização de textos bem formatados para sua indexação e seu uso em mecanismos de busca, propiciando uma rica experiência ao usuário, além de possibilitar a construção de novas soluções digitais. Nesse contexto, a curadoria digital é fundamental para agregar valor aos recursos digitais e atender às necessidades específicas de seus usuários.

Downloads

Não há dados estatísticos.

Biografia do Autor

Glauber José Vaz, Embrapa Agricultura Digital, Campinas, SP, Brasil

Glauber José Vaz é bacharel em Ciência da Computação pela Universidade Federal de Uberlândia (UFU) desde 2000, e mestre em Ciência da Computação pela Universidade Estadual de Campinas (Unicamp) desde 2003. De 2003 a 2010, foi professor universitário em cursos relacionados à Computação em três instituições de ensino, inclusive a Unicamp (Faculdade de Tecnologia). Desde 2010 trabalha com pesquisa, desenvolvimento e inovação na Embrapa Agricultura Digital, em áreas como Recuperação da Informação, Ciência de Dados e Agricultura Digital.

Pedro Henrique Rodrigues da Cunha da Veiga, IZagro, Franca, SP, Brasil

Pedro Henrique Rodrigues da Cunha da Veiga é bacharel em Ciência da Computação pela Universidade de Franca (2017) em São Paulo, Sócio-Diretor de Tecnologia no IZagro, agtech focada em ajudar o pequeno/médio produtor com boas práticas regenerativas utilizando informação simples e clara. Com experiências no desenvolvimento de aplicações web, atuando principalmente em tecnologias Back-end para processamento e tráfego de dados, utilizando Java (Spring boot Data), Python e NodeJS.

Rafael Gomes Caldas, IZagro, Franca, SP, Brasil

Rafael Gomes Caldas é bacharel em Ciência da Computação pela Universidade de Franca (2017). Desenvolvedor na IZagro desde novembro de 2018. Com experiência no desenvolvimento de aplicações web, atuando principalmente com as tecnologias JavaScript, TypeScript, bancos de dados relacionais, não relacionais e computação em nuvem.

Wyviane Carlos Lima Vidal, Embrapa Agroenergia, Brasilia, DF, Brasil

Wyviane Carlos Lima Vidal é bacharel em Ciências Biológicas pela Universidade Federal da Paraíba, desde 1997 e mestre em Desenvolvimento e Meio Ambiente pela Universidade Federal da Paraíba, desde 2001. É pesquisadora da Empresa Brasileira de Pesquisa Agropecuária, desde 2002. Atuou na Embrapa Tabuleiros Costeiros, Aracaju, SE, de 2002 a 2004, na Embrapa Informação Tecnológica, Brasília, DF, como coeditora da revista Pesquisa Agropecuária Brasileira, de 2005 a 2012 e como editora de livros e séries da Embrapa, de 2012 até 2018 e na Editoria e Produção da Gerência de Comunicação e Informação da Secretaria Geral da Embrapa, até março de 2022. Atualmente, está lotada na Embrapa Agroenergia, Brasília, DF.

Cristiane Pereira de Assis, Embrapa Sede, Superintendência de Comunicação, Brasília, DF, Brasil

Cristiane Pereira de Assis possui graduação em Agronomia (2002), mestrado (2004) e doutorado (2008) em Solos e Nutrição de Planta, todos pela Universidade Federal de Viçosa. Tem experiência na área de Agronomia, com ênfase em Manejo e Conservação do Solo. Pela Capes-PNPD, fez um pós-doutorado no Departamento de Solos da Universidade Federal do Ceará, no período de 2008 a 2010, dentro do projeto Qualidade do solo no perímetro irrigado Jaguaribe-Apodi, Ceará. Foi professora de Agronomia na Universidade Federal do Vale do São Francisco, no período de 2010 a 2011. Atualmente é pesquisadora da Empresa Brasileira de Pesquisa Agropecuária, onde atuou como editora científica da revista Pesquisa Agropecuária Brasileira de abril de 2012 a janeiro de 2018. Atualmente trabalha como editora de livros técnico-científicos da Embrapa, assim como faz parte da coordenação das plataformas digitais dos Sistemas de Produção Embrapa e da Agência Embrapa de Informação Tecnológica (Ageitec).

Jorge Luiz Correa, Embrapa Agricultura Digital, Campinas, SP, Brasil

Jorge Luiz Correa é bacharel e mestre em Ciência da Computação pela Universidade Estadual Paulista (UNESP), área de concentração em Segurança de Redes e Sistemas Computacionais. Atuou por 6 anos como analista e pesquisador do Laboratório ACME! de Cibersegurança da UNESP. Desenvolveu pesquisas nas áreas de detecção de ataques em redes e junto ao Instituto Nacional de Ciência e Tecnologia - Sistemas Embarcados Críticos (INCT-SEC). Foi consultor de TI da Secretaria de Educação do Estado de São Paulo. Atualmente é Analista de Infraestrutura e Segurança da Empresa Brasileira de Pesquisa Agropecuária (Embrapa), focado em computação de alto desempenho e nuvens computacionais.

Maria Fernanda Moura, Embrapa Agricultura Digital, Campinas, SP, Brasil

Maria Fernanda Moura é bacharel em Estatística pela Universidade Estadual de Campinas (1987), mestre em Engenharia Elétrica pela Universidade Estadual de Campinas (1992) e doutora em Ciência da Computação pela Universidade de São Paulo (2009). Pesquisadora da Embrapa Agricultura Digital desde agosto de 1989. Tem experiência na área de Probabilidade e Estatística, com ênfase em Mineração de Dados e Textos, atuando principalmente nos seguintes temas: ciência de dados, mineração de textos, estatística experimental, desenvolvimento de software científico (Python, R, C++ e Java).

Referências

Bax, M. P.; Resende, L. C. A Curadoria Digital de Dados Científicos no Campo da Ciência da Informação. Perspectivas em Ciência da Informação, Belo Horizonte, v. 25, n. especial, p. 233-251, 2020.

Brayner, A. A. Curadoria digital: novos modelos de participação pública na descrição de conteúdos em instituições culturais. Revista Ibero-Americana de Ciência da Informação, Brasília, v. 12, n. 1, p. 53–65, 2018.

Cordeiro, L. A. M.; Vilela, L.; Kluthcouski, J.; Marchão, R. L. (Ed.). Integração lavoura-pecuária-floresta: o produtor pergunta, a Embrapa responde. Brasília, DF: Embrapa, 2015. (Coleção 500 perguntas, 500 respostas).

Cunha, M .B. da. Digitalização: meta urgente para as bibliotecas. Revista Ibero-Americana de Ciência da Informação, Brasília, v. 15, n. 1, p. 1–5, 2022.

Elastic. Elasticsearch Guide: what is Elasticsearch, 2022. Disponível em: <https://www.elastic.co/guide/en/elasticsearch/reference/current/elasticsearch-intro.html>. Acesso em 29 mar. 2022.

EMBRAPA. Coleção 500 perguntas 500 respostas: Você pergunta, a Embrapa responde. Disponível em: https://mais500p500r.sct.embrapa.br/view/index.php. Acesso em 29 mar. 2022.

Gomes, L. I. E. Transformação digital e Inteligência Artificial nos serviços de informação: inovação e perspectivas para a Ciência da Informação no mundo pós-pandemia. Revista Ibero-Americana de Ciência da Informação, Brasília, v. 15, n. 1, p. 148–166, 2022.

Higgins, S. The DCC Curation Lifecycle Model. International Journal of Digital Curation, v. 3, n. 1, p. 134-140, 2008.

KasmanI, F.; Maniyar, R.; Narvekar, M. Content based search engine for e-books. In: 2020 6th International Conference on Advanced Computing and Communication Systems (ICACCS). Proceedings..., IEEE, 2020. p. 528-533.

Martins, R. D. Obstáculos para expansão do uso dos e-books na sociedade brasileira. RDBCI: Revista Digital de Biblioteconomia e Ciência da Informação, Campinas, v. 14, n. 2, p. 279-297, 2016.

Moreira, F. M. et al. Metadados para descrição de datasets e recursos informacionais do “Portal Brasileiro de Dados Abertos”. Perspectivas em Ciência da Informação, Belo Horizonte, v. 22, n. 3, p. 158-185, 2017.

National Research Council. Preparing the workforce for digital curation. Washington, DC: National Academies Press, 2015.

Oliver, G.; Harvey, R. Digital curation. Chicago: American Library Association, 2016.

Rehm, G. et al. QURATOR: innovative technologies for content and data curation. In: CONFERENCE ON DIGITAL CURATION TECHNOLOGIES (Qurator 2020), Berlin, Germany, 20-21 Jan. 2020. Proceedings..., 2020.

Rusbridge, C. et al. The digital curation centre: a vision for digital curation. In: IEEE INTERNATIONAL SYMPOSIUM ON MASS STORAGE SYSTEMS AND TECHNOLOGY, 2005. Proceedings... IEEE, 2005. p. 31-41.

Tartarotti, R. C .D.; Dal’Evedove, P. R. Avaliação da indexação em repositórios institucionais brasileiros: uma análise comparada entre USP, UNESP e UNICAMP. Revista Ibero-Americana de Ciência da Informação, Brasília, v. 14, n. 2, p. 583–599, 2021.

Teixeira, M. V.; Spiassi, A. O resumo como instrumento de recuperação da informação nos catálogos de bibliotecas. Revista Ibero-Americana de Ciência da Informação, Brasília, v. 15, n. 1, p. 76–88, 2022.

Teixeira, T. M .C.; Valentim, M. L. P. Processo de busca e recuperação de informação em ambientes organizacionais: uma reflexão teórica sobre a subjetividade da informação. Perspectivas em Ciência da Informação, Belo Horizonte, v. 22, p. 82-97, 2017.

Vaz, G. J.; Veiga, P. H. R.; Moura, M. F. Content from the books of Embrapa's 500 Questions 500 Answers Collection (Coleção 500 Perguntas 500 Respostas) treated to be used in digital solutions, Redape, v. 1, 2022. Disponível em: <https://doi.org/10.48432/YIGNPF>. Acesso em 20 dez. 2022.

W3C EPUB 3 Community Group. Epub 3.2: Final Community Group Specification 08 May 2019, 2019a. Disponível em: <https://www.w3.org/publishing/epub32/epub-spec.html>. Acesso em 29 mar. 2022.

W3C EPUB 3 Community Group. Epub Content Documents 3.2: Final Community Group Specification 08 May 2019, 2019b. Disponível em: <https://www.w3.org/publishing/epub32/epub-contentdocs.html>. Acesso em 29 mar. 2022.

Downloads

Publicado

2023-08-15

Como Citar

Vaz, G. J., Veiga, P. H. R. da C. da, Caldas, R. G., Vidal, W. C. L., Assis, C. P. de, Correa, J. L., & Moura, M. F. (2023). Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca. Revista Ibero-Americana De Ciência Da Informação, 16(2), 311–328. https://doi.org/10.26512/rici.v16.n2.2023.42740