Redação do Site Inovação Tecnológica - 19/12/2005
Agulhas em palheiros digitais
Encontrar uma agulha num palheiro. O ditado - que procura transmitir uma idéia de algo, senão impossível, pelo menos impraticável - não impõe muito temor aos físicos de partículas, aos astrofísicos que procuram civilizações extraterrestres ou aos pesquisadores que procuram identificar riscos de uma epidemia.
É que estes estudiosos - e vários outros, em outras especialidades - trabalham com gigantescos volumes de dados, nos quais uma variação mínima pode representar a diferença entre o fracasso da pesquisa e uma descoberta histórica.
Agora, cientistas da Universidade Case Western, Estados Unidos, descobriram uma nova forma de encontrar agulhas em palheiros. Os estatísticos Ramani Pilla e Catherine Loader, e o físico Cyrus Taylor, relataram sua descoberta em um artigo publicado no periódico Physical Review Letters.
"Como os palheiros de informação estão se tornando cada vez maiores - e as agulhas cada vez menores - a busca por um sinal [significativo] se torna cada vez mais difícil utilizando-se as abordagens tradicionais. Há a necessidade de novos métodos estatísticos sofisticados," dizem os pesquisadores.
Sinal versus ruído
Os pesquisadores que lidam com grandes quantidades de dados defrontam-se com o problema fundamental de separar um sinal real de uma variação aleatória nos dados. Em muitos problemas práticos, um sinal suspeito pode ser simplesmente uma pequena mancha causada por um ruído de fundo durante o experimento.
Os cientistas descobriram uma técnica que se baseia no princípio de comparação de um conjunto de características resumidas para qualquer sub-região das observações, com variações de fundo. A partir dessas características, são feitas tentativas de se encontrar pequenas regiões que se pareçam significativamente diferentes do "background" - uma diferença que não possa ser atribuída simplesmente a uma variação aleatória.
No cerne da descoberta está a idéia de se colocar um problema em termos de um paradigma "teste baseado em hipóteses", para se detectar desordens estatísticas em dados. O método explora a flexibilidade por trás de uma fórmula geométrica largamente utilizada para a criação de uma técnica que melhora significativamente a capacidade de se detectar um sinal.
Métodos geométricos
O ponto de partida foram os métodos geométricos criados por Harold Hotelling e Hermann Weyl, em 1939. Os cientistas agora testaram as técnicas estatísticas utilizando experimentos de física das partículas simulados por computador, imitando os experimentos reais realizados em aceleradores, para demonstrar que a nova técnica melhora significativamente as probabilidades de detecção de sinais relevantes.
A descoberta é muito bem-vinda. Afinal, uma experiência em um acelerador de partículas custa muito caro. Melhorar a eficiência de detecção de sinais significativos na miríade de dados gerados em cada uma dessas experiências pode significar uma grande economia, além de mais descobertas científicas.
Descobertas científicas que poderão ajudar também a detectar células tumorais mais precocemente ou até mesmo a ocorrência de fraudes em transações financeiras.