Com informações da Agência Fapesp - 14/08/2015
Sensores da Web
Um conjunto de algoritmos desenvolvidos no Instituto de Ciências Matemáticas e de Computação da USP de São Carlos permite filtrar, entre grandes quantidades de textos, dados que possibilitam classificá-los de acordo com o teor de seu conteúdo.
Dessa forma, coleções de bibliotecas virtuais podem ser categorizadas de acordo com o gênero literário, temas e outros aspectos específicos de cada obra, ou comentários publicados em redes sociais serem identificados como positivos ou negativos - dentre muitas outras aplicações.
O trabalho faz parte de um esforço para a construção dos chamados "sensores da web".
Com esses agentes inteligentes automatizados, a web pode se transformar em "um grande e poderoso sensor social, permitindo monitorar vários tipos de eventos a partir de textos publicados em portais de notícias e redes sociais, como detecção de epidemias, extração de indicadores políticos e econômicos e análise de sentimentos," explicou a professora Solange Oliveira Rezende, orientadora do trabalho.
Representação de dados em redes
"A quantidade de informações à disposição em diferentes plataformas facilmente acessíveis, como a web, é cada vez maior. É preciso que sejam desenvolvidas novas estratégias para filtrá-las de maneira inteligente, sem que dados se percam no processo e garantindo maior precisão na interpretação das informações," disse Rafael Geraldeli Rossi, criador dos programas.
Os algoritmos desenvolvidos por Rafael permitem a classificação, considerando não só a incidência de termos específicos em diferentes textos, mas também redes formadas por associações entre termos, o que agiliza o processo e diminui a quantidade de informações que precisam ser fornecidas para treinar o programa.
O trabalho é desenvolvido por meio do aprendizado de máquina, um campo da inteligência artificial dedicado ao desenvolvimento de técnicas que permitem ao computador aperfeiçoar seu desempenho em alguma tarefa, "aprendendo" a partir de exemplos previamente classificados por um usuário ou especialista.
A representação de dados em redes possibilita melhorar a organização e classificação de dados considerando poucos exemplos anteriormente classificados.
"A representação das relações entre termos em redes permite aprender padrões que não são assimilados em outros tipos de representações. A partir daí foram desenvolvidos os algoritmos que manipulam essas representações em redes de termos, permitindo fazer análises sobre os diferentes tipos de relações que podem existir entre os termos e adequando o aprendizado de máquina às necessidades do usuário," explicou Solange.
Relação entre termos
"O grande diferencial do trabalho é que ele não considera apenas a frequência dos termos nos documentos, que é o mais comum nesse tipo de pesquisa. Leva-se em conta também a relação entre termos para realizar a classificação dos textos.
"O desenvolvimento de um websensor depende de especialistas para definição dos parâmetros do sensor, como expressões para busca, filtros e monitoramentos de conteúdo textual da web, o que torna o processo mais complexo. Os algoritmos de aprendizado de máquina semissupervisionados para classificação de textos, como os desenvolvidos na pesquisa, podem ser utilizados para gerar sensores e monitorar exemplos de interesse do usuário," finalizou a professora.