Software faz correferência em textos de Língua Portuguesa

Valéria Dias - Agência USP - 25/04/2011

O programa identifica uma mesma entidade, pessoa, lugar, evento ou conceito em um ou em vários textos.
[Imagem: Ag.USP]

Português nativo

Um software realiza automaticamente a correferência em múltiplos documentos em Língua Portuguesa.

O programa identifica uma mesma entidade, pessoa, lugar, evento ou conceito em um ou em vários textos.

O software poderá ser aplicado em sistemas de perguntas e respostas, extração de informação, tradução automática, simplificação textual e sumarização automática.

O trabalho foi realizado no Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos (SP).

"Trata-se do primeiro software desenvolvido no Brasil direcionado especificamente para textos em Língua Portuguesa. O outro diferencial é que o programa faz a correferência automaticamente, sem haver necessidade de treinar a máquina como ocorre em outros programas semelhantes", explica Jefferson Fontinele da Silva, autor do trabalho.

Correferência

Segundo o pesquisador, os programas já existentes foram desenvolvidos para textos em outros idiomas e necessitam de um treinamento para que o computador possa fornecer a correferência dos elementos do texto.

Para entender o que é correferência, Silva usa como exemplo textos que citam uma mesma pessoa diversas vezes. Com o software, é possível identificar em quais momentos do texto a pessoa é citada, mesmo que ela não tenha sido citada pelo nome.

Por exemplo, no caso da frase "Maria nasceu no Brasil. A professora viajou ontem para a Europa, onde pretende viajar pela França e Itália", o software encontra os diferentes trechos de texto que se referem a Maria, como no exemplo, "Maria" e "A professora".

Em textos onde várias entidades são citadas, o software fornece a correferência para todas elas, separadamente.

Análises sintática e semântica

De acordo com o pesquisador, no caso de alguns buscadores na internet, a correferência é feita por meio da comparação de palavras.

Já o software desenvolvido no ICMC fornece a correferência por meio das análises sintática e semântica, que é feita automaticamente.

Na análise sintática, o software identifica o sujeito, o verbo e os complementos das frases.

Já na semântica, o programa contextualiza as palavras. "Isso é bastante útil para aplicação do software em tradução automática, pois ajuda o computador a contextualizar o que está sendo traduzido", aponta.

Precisão sem aprendizado

No projeto desenvolvido por Silva, foram utilizados textos jornalísticos sobre um mesmo assunto publicados em jornais como Folha de S.Paulo, O Estado de S.Paulo, Jornal de Brasília e O Globo.

Esses textos foram inseridos no software manualmente.

Após a análise sintática e semântica dos documentos, bem como da aplicação dos algoritmos estatísticos, o software apresenta a correlação de entidades, pessoas, lugares ou eventos, conforme o que tiver sido solicitado ao programa.

"A precisão em encontrar o que foi solicitado gira em torno de 65%", aponta o pesquisador. Segundo ele, essa precisão é comparável com a obtida em sistemas que necessitam de aprendizado.