Agência USP - 25/02/2005
Pesquisadores da USP de São Carlos desenvolveram o primeiro programa brasileiro de análise discursiva de textos. O DiZer é um analisador automático para o português do Brasil que poderá ser utilizado em diversos sistemas de processamento da língua, como sumarizadores de textos e tradutores automáticos, entre outros.
Thiago Alexandre Salgueiro Pardo, doutorando em Ciência da Computação e autor do projeto, explica que o programa tem a capacidade de detectar relações entre as sentenças/orações de um texto, construindo sua estrutura discursiva, isto é, uma estrutura que indica como as partes do texto se relacionam e contribuem para o entendimento umas das outras. "Se dissermos, por exemplo, 'Choveu pela manhã. O chão está molhado', nós, humanos, somos capazes de reconhecer a relação de causa que existe entre as duas sentenças. Para um computador, entretanto, esta é uma tarefa difícil."
Para que seja possível reconhecer automaticamente este conhecimento implícito no texto, o analisador discursivo faz uso de várias técnicas, como a detecção de marcadores textuais, uso de conhecimento de mundo e de dados estatísticos. Por exemplo, na sentença 'Ele gosta de massas, mas não gosta de macarrão.', é possível detectar automaticamente uma relação de contraste entre as orações dessa sentença devido à presença do marcador 'mas'. Na ausência de marcadores textuais, como no trecho de texto 'Choveu pela manhã. O chão está molhado', pode-se fazer uso, por exemplo, do conhecimento de mundo de que chover implica molhar.
O pesquisador informa que, no momento, o programa está sendo utilizado apenas em textos acadêmicos. "Está pronto, porém ainda não o testamos em outros textos, que não os científicos", informa. Em fase de conclusão, o sistema resultante é a base da tese de doutorado do pesquisador, que ainda está em andamento. "Podemos considerar que estamos ainda em fase de aprimoramento do programa, pois sempre há inovações a serem testadas e adaptações a serem feitas. Mas trata-se de um produto que tem apresentado desempenho satisfatório. É um passo a mais que damos para o entendimento automático de textos."
Thiago Pardo informa que se sabe de alguns analisadores discursivos para as línguas inglesa e japonesa. "Para o português do Brasil, o DiZer é o primeiro", afirma. O pesquisador teve sua pesquisa financiada pela FAPESP - Fundação de Amparo à Pesquisa do Estado de São Paulo, pela CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior, e pela Comissão Fulbright, sob a orientação da professora Maria das Graças Volpe Nunes, no Programa de Pós-Graduação em Ciências da Computação do ICMC da USP de São Carlos.