Valéria Dias - Agência USP - 25/04/2011
Português nativo
Um software realiza automaticamente a correferência em múltiplos documentos em Língua Portuguesa.
O programa identifica uma mesma entidade, pessoa, lugar, evento ou conceito em um ou em vários textos.
O software poderá ser aplicado em sistemas de perguntas e respostas, extração de informação, tradução automática, simplificação textual e sumarização automática.
O trabalho foi realizado no Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos (SP).
"Trata-se do primeiro software desenvolvido no Brasil direcionado especificamente para textos em Língua Portuguesa. O outro diferencial é que o programa faz a correferência automaticamente, sem haver necessidade de treinar a máquina como ocorre em outros programas semelhantes", explica Jefferson Fontinele da Silva, autor do trabalho.
Correferência
Segundo o pesquisador, os programas já existentes foram desenvolvidos para textos em outros idiomas e necessitam de um treinamento para que o computador possa fornecer a correferência dos elementos do texto.
Para entender o que é correferência, Silva usa como exemplo textos que citam uma mesma pessoa diversas vezes. Com o software, é possível identificar em quais momentos do texto a pessoa é citada, mesmo que ela não tenha sido citada pelo nome.
Por exemplo, no caso da frase "Maria nasceu no Brasil. A professora viajou ontem para a Europa, onde pretende viajar pela França e Itália", o software encontra os diferentes trechos de texto que se referem a Maria, como no exemplo, "Maria" e "A professora".
Em textos onde várias entidades são citadas, o software fornece a correferência para todas elas, separadamente.
Análises sintática e semântica
De acordo com o pesquisador, no caso de alguns buscadores na internet, a correferência é feita por meio da comparação de palavras.
Já o software desenvolvido no ICMC fornece a correferência por meio das análises sintática e semântica, que é feita automaticamente.
Na análise sintática, o software identifica o sujeito, o verbo e os complementos das frases.
Já na semântica, o programa contextualiza as palavras. "Isso é bastante útil para aplicação do software em tradução automática, pois ajuda o computador a contextualizar o que está sendo traduzido", aponta.
Precisão sem aprendizado
No projeto desenvolvido por Silva, foram utilizados textos jornalísticos sobre um mesmo assunto publicados em jornais como Folha de S.Paulo, O Estado de S.Paulo, Jornal de Brasília e O Globo.
Esses textos foram inseridos no software manualmente.
Após a análise sintática e semântica dos documentos, bem como da aplicação dos algoritmos estatísticos, o software apresenta a correlação de entidades, pessoas, lugares ou eventos, conforme o que tiver sido solicitado ao programa.
"A precisão em encontrar o que foi solicitado gira em torno de 65%", aponta o pesquisador. Segundo ele, essa precisão é comparável com a obtida em sistemas que necessitam de aprendizado.