Fábio de Castro - Agência FAPESP - 04/07/2007
Quem nunca enviou e-mail para um destinatário errado? Uma situação como essa pode ser apenas cômica ou constrangedora, dependendo do teor da mensagem. Mas a conseqüência tende a ser desastrosa quando se lida com informação sigilosa em ambientes empresariais, governamentais ou jurídicos.
Vazamento de informações
A fim de procurar evitar esse tipo de situação, o brasileiro Vitor Carvalho, pesquisador da Universidade Carnegie Mellon, nos Estados Unidos, desenvolveu um novo método para prevenção de vazamentos de informações por e-mail.
"É uma aplicação de inteligência artificial e processamento automático de linguagem natural que diminui substancialmente a probabilidade de ocorrerem vazamentos de informação. Em testes, o método detectou os envios de e-mails a destinatários indevidos em 82% dos casos", disse Carvalho à Agência FAPESP.
O trabalho fez parte da tese de doutorado de Carvalho, defendida no Instituto de Tecnologias de Linguagens da Universidade Carnegie Mellon, cuja pós-graduação em ciência da computação foi considerada a melhor dos Estados Unidos segundo comparativo divulgado este ano pela revista U.S. News & World Report. O método foi desenvolvido em conjunto com William Cohen, do Departamento de Inteligência Artificial.
Informações empresariais
Segundo Carvalho, a técnica foi patenteada provisoriamente e aguarda propostas para implementação em sistemas de larga escala de e-mail ou web-mail. "O potencial é muito grande, uma vez que o e-mail é um meio de comunicação usado por milhões. E, quanto maior a lista de contatos de uma pessoa ou organização, maior é a chance de um vazamento indesejado", disse.
Para o pesquisador, o método seria especialmente importante para as empresas que trabalham com segurança na internet e para organizações que lidam com dinheiro público ou privado. O pesquisador cita como exemplo um caso famoso de vazamento de informações confidenciais que ocorreu nos Estados Unidos em 2001.
"O governo da Califórnia enviou acidentalmente a uma lista de e-mails uma mensagem com dados sigilosos sobre a compra de uma empresa de energia. Como havia jornalistas na lista, a informação vazou e prejudicou as negociações, interferiu em futuras licitações e manchou a imagem de políticos", contou.
Um dos principais motivos de erros do tipo, segundo Carvalho, é que os programas de e-mail mais populares sugerem a complementação dos e-mails quando eles são digitados. "Às vezes, podemos digitar com pressa, ou dar uma resposta a todos os destinatários de e-mails anteriores. Isso é muito comum", disse.
Aprendizado de máquina
Com o novo método, à medida que se escreve a mensagem, o programa identifica tópicos e palavras-chave relacionados a listas de antigos destinatários. "Em uma coluna, aparece uma lista de destinatários mais e menos prováveis para determinado conteúdo. Se no fim da redação há nomes muito improváveis na lista, o sistema indica possibilidade de vazamento", explicou.
Para possibilitar o método, foi desenvolvido um algoritmo com base em técnicas de aprendizado de máquina e de modelos de linguagem. Enquanto se digita o e-mail, o sistema busca similaridades em textos de todas as mensagens anteriores.
"Ao identificar os termos, o sistema cruza dados com toda a lista de destinatários do histórico do programa de correio eletrônico. O sistema considera a freqüência de contatos com cada um deles, o quão recente foi o último contato e quantas vezes se falou com eles sobre determinados termos. Com isso, o sistema calcula a probabilidade de determinado assunto ter relação com cada destinatário", disse Carvalho.
No modelo implementado foi utilizada uma coleção de e-mails relacionada ao escândalo da empresa Enron, cujo acesso foi liberado pelo Ministério Público norte-americano após a concordata que se seguiu a uma série de denúncias de fraudes contábeis e fiscais.
"A coleção tem algumas centenas de milhares de mensagens e graças a ela pudemos testar a eficiência do método", afirmou Carvalho, que mora desde 2003 nos Estados Unidos e é graduado pela Universidade Federal de Pernambuco, com mestrado pela Universidade Estadual de Campinas.