Redação do Site Inovação Tecnológica - 23/05/2003
Pesquisadores de ciência da computação da Universidade de Stanford (Estados Unidos) desenvolveram uma nova técnica que torna possível a busca de informações em sites e a construção de rankings, como a que é feita pelo mecanismo de busca Google, até cinco vezes mais rápida. Tamanha aceleração poderá tornar possível o cálculo de "rankings" personalizados para o interesse específico de um indivíduo ou customizados para um tópico em particular.
A equipe que construiu o novo software inclui os estudantes Sepandar Kamvar e Taher Haveliwala, além dos professores Gene Golub e Christopher Manning. Eles apresentaram a pesquisa ontem, dia 22, na Conferência Mundial da World Wide Web, que se realiza em Budapeste (Hungria).
O algoritmo de classificação utilizado pelo Google, chamado "Computing PageRank", leva vários dias para indexar todas as mais de 3 bilhões de páginas atualmente cobertas pelo mecanismo de busca. É por isto que a posição de um site na busca de um determinado tópico demora até algumas semanas para se alterar depois que o site foi modificado.
Para cada classificação personalizada que se desejasse construir seria necessário o mesmo tempo de computação, o que inviabiliza a construção desses índices, que seriam muito mais eficientes ao evitar que o usuário tivesse que navegar por vários sites com informações irrelevantes. Por exemplo, um usuário interessado em literatura e que fizer uma busca pela palavra "gigante", dificilmente encontrará um site sobre "Joãozinho e o Pé de Feijão". É isto que torna tão frustrante a busca por informações na Internet, principalmente para usuários iniciantes. O novo algoritmo apresentado ontem pode resolver este problema, dando mais "inteligência" aos mecanismos de busca.
O novo programa utiliza três novas técnicas ou algoritmos. O primeiro algoritmo efetua uma extrapolação, um método que efetua suposições acerca da estrutura dos links na Web, permitindo um processamento mais rápido. Como são suposições, elas não são exatamente corretas, o que torna o resultado retornado da busca menos do que perfeito. Mas os resultados podem ser posteriormente melhorados pelo próprio algoritmo PageRank, com um ganho final de 50% na velocidade do processamento.
O segundo algoritmo, chamado "BlockRank", tira vantagem de uma característica da estrutura de links da Web até agora pouco explorada. Cerca de 80% das páginas de um determinado site aponta para outras páginas dentro do próprio site. Desta forma, o programa de busca pode efetuar apenas classificações inter-site, juntá-las da forma apropriada e passá-las como ponto de partida para o algoritmo PageRank original. Isto acelera a busca em nada menos do que 300 por cento.
O terceiro algoritmo parte da constatação de que a classificação de alguns sites, para determinada busca, é feita rapidamente, assim que o programa começa a rodar. Já o processamento dos sites melhor colocados demora muito mais. Com um método chamado de "Adaptive PageRank", os pesquisadores eliminaram os cálculos redundantes envolvendo os sites que já foram classificados, aumentando a velocidade do processamento final em outros 50%.
Os pesquisadores passam agora a trabalhar na solução do problema que ainda persiste para a geração de resultados de busca personalizados: a necessidade de espaço de armazenamento. O ranking de determinada busca toma vários gigabytes de espaço em disco. Em tese, cada busca personalizada tomaria o mesmo espaço, o que fatalmente congestionaria os servidores de um mecanismo de busca tão popular quanto o Google.