Avaliação do desempenho de um software de sumarização automática de textos

Hamilton Rodrigues Tabosa, Osvaldo de Souza, José Carlos dos Santos Cândido, Ana Cristina Azevedo Ursulino Melo, Keila Giullianna Braga Reis

Resumo


Desde 2014 desenvolvemos uma pesquisa com o intuito de produzir um software (protótipo) que seria capaz de elaborar resumos automáticos de textos baseado em técnicas de Processamento de Linguagem Natural e estatísticas de frequência de palavras. Os primeiros testes empíricos da ferramenta geraram resultados que indicaram uma significativa redução da dimensionalidade dos textos, com considerável preservação do seu valor semântico. Neste artigo, apresentamos os resultados da continuidade do nosso trabalho investigative, a partir de uma avaliação humana da qualidade desses resumos a partir da realização de testes cegos. Um grupo de três bibliotecárias recebeu um bloco misto e não identificado de resumos - produzidos por humanos e os resumos automáticos feitos pelo software - e procedeu a uma avaliação, segundo os critérios de corretude gramatical, preservação das ideias centrais, coerência e legibilidade, extensão do resumo, se houve paráfrase ou cópia de fragmentos e, se houve introdução de ideias não contidas no texto original. Os resultados mostraram que em quatro, dos cinco critérios de avaliação adotados, houve equivalência qualitativa entre os resumos produzidos por humanos e os produzidos pelo software, o que parece representar um relativo sucesso, uma vez que o prototipo poderia substituir uma pessoa na atividade de resumir textos sem deixar a desejar, a não ser no quinto creitério de avaliação, referente à dimensão do resumo, em que o texto produzido pelo software foi apontado como extenso além do necessário.


Palavras-chave


Sumarização automática de textos. Acesso à informação. Processamento da linguagem natural. Mediação (Prática).

Texto completo:

PDF

Referências


BORGES, G. S. B. Indexação automática de documentos textuais: proposta de critérios essenciais. 2009. 111 f. Dissertação (Mestrado em Ciência da Informação) – Escola de Ciência da Informação, Universidade Federal de Minas Gerais, Minas Gerais, 2009.

DE SOUZA, O., et al. Um método de sumarização automática de textos através de dados estatísticos e Processamento de Linguagem Natural. Informação & Sociedade: Estudos, João Pessoa, v. 27, n. 3, p. 307-320, set./dez. 2017. Disponível em: http://www.ies.ufpb.br/ojs2/index.php/ies/article/view/32571/pdf. Acesso em: 28 jan. 2019.

GONZALEZ, M.; LIMA, V. L. S. Recuperação de informação e processamento da linguagem natural. 2003. Disponível em: http://www.inf.pucrs.br/~gonzalez/docs/minicurso-jaia2003.pdf. Acesso em: 9 fev. 2019.

LANCASTER, F. W. Indexação e sumários: teoria e prática. 2. ed. Brasília: Briquet de Lemos, 2004.

LUHN, H. P. A Statistical Approach to Mechanized Encoding and Searching of Literary Information. IBM Journal of Research and Development. n. 1, v. 4, p. 309-317, 1957.

PEREIRA, S. L. Processamento de Linguagem Natural. 2011. Disponível em: http://walderson.com/2011-2/IA/07- processamentolinguagemnatural.pdf. Acesso em: 09 fev. 2019.

SALTON, G.; BUCKLEY, C. Term-weighting approaches in automatic text retrieval. Information Processing & Management, v. 24, p. 513-523, 1988.

SPARCK JONES, K. A statistical interpretation of term specificity and its application in retrieval. Journal of Documentation. v. 28, n. 1, p. 11-21, 1972.




DOI: http://dx.doi.org/10.5433/1981-8920.2020v25n1p189

Licença Creative Commons
Esta obra está licenciada sob uma licença Creative Commons Atribuição - Não comercial - Sem derivações 4.0 Internacional.

  

Inf. Inf.

ISSN: 1981-8920 (versão somente online)

DOI: 10.5433/1981-8920

e-mail: infoeinfo@uel.br



Esta obra está licenciada com uma Licença Creative Commons Atribuição-NãoComercial 4.0 Internacional