Robótica

Visão artificial identifica as árvores e a floresta

Redação do Site Inovação Tecnológica - 25/08/2010

O novo algoritmo de visão artificial identifica os objetos sem a necessidade de programação específica para cada tipo de objeto a ser reconhecido.
[Imagem: Christine Daniloff/MIT]

Pesquisadores norte-americanos criaram um novo algoritmo de visão artificial que promete dar aos computadores e aos robôs a capacidade de identificação de objetos sem a necessidade de programação específica para cada tipo de objeto a ser reconhecido.

A técnica, segundo eles, permite que o computador adquira "a arte de ver a floresta, e não apenas as árvores."

Funcionamento da visão artificial

A visão artificial, ou visão de máquina, é largamente utilizada na indústria, por exemplo, verificando se todas as peças produzidas estão com as dimensões corretas, se todas as garrafas estão cheias ou se todas as embalagens têm o número correto de itens.

No dia-a-dia, contudo, embora a maioria dos aparelhos portáteis já disponha de câmeras, a visão artificial ainda não permitiu a criação de aplicativos mais interessantes, não indo além da capacidade de algumas câmeras de saber onde está o rosto de quem está sendo fotografado.

Isto acontece porque o programa deve ser desenvolvido especificamente para cada tipo de objeto a ser reconhecido. Assim, mesmo para reconhecer uma pequena quantidade dos objetos encontrados no dia-a-dia, o sistema ficaria grande demais.

Um sistema de reconhecimento de objetos convencional, ao tentar identificar um tipo particular de objeto em uma imagem digital, geralmente começa procurando suas características mais salientes. Um sistema criado para reconhecer rostos, por exemplo, pode olhar para coisas que se assemelhem a olhos, narizes e bocas e, em seguida, determinar se todos têm as relações espaciais adequadas entre si.

O problema é que programar esse mecanismo exige uma intuição humana: Um programador decide quais partes dos objetos são relevantes e devem ser procuradas e, a seguir, as descreve para o programa. Isso significa que, para cada novo objeto a ser identificado, o programador tem de começar do zero, determinando quais partes do novo objeto são as mais importantes.

Ensinando o computador a ver

Long Zhu e seus colegas do MIT e da Universidade da Califórnia acharam um modo melhor de fazer isto.

Como a maioria dos sistemas de reconhecimento, o novo programa aprende a reconhecer novos objetos sendo "treinado", usando imagens digitais contendo esses objetos devidamente etiquetados.

Mas ele não precisa saber de antemão quais características ele deve procurar nesses objetos.

Para cada objeto etiquetado, o programa primeiro identifica a menor característica possível, geralmente segmentos de linha muito curtos. Então ele procura por situações nas quais essas características de baixo nível estão conectadas umas às outras, identificando formas um pouco mais sofisticadas.

A seguir ele procura por situações em que estas formas mais sofisticadas estão conectadas umas às outras, e assim por diante, até que seja montada uma estrutura hierárquica de peças cada vez mais complexas.

O resultado final é um modelo descritivo de todo o objeto.

O algoritmo tem ainda outra vantagem. Para identificar um objeto, digamos, um cavalo, ele identifica "formas parciais" que formam o corpo do animal. Mas, tão logo verifique que, uma vez identificada uma dessas formas, a outra sempre aparece, ele pode descartar as partes acessórias.

Isso não apenas acelera o processamento, como também permite a identificação de um cavalo mesmo que apenas uma parte do animal apareça na foto.

Bibliografia:

Artigo: Part and Appearance Sharing: Recursive Compositional Models for Multi-View Multi-Object Detection
Autores: Long Zhu, Bill Freeman, Antonio Torralba, Yuanhao Chen, Alan Yuille
Revista: Conference on Computer Vision and Pattern Recognition Proceedings
Link: http://people.csail.mit.edu/leozhu/paper/RCM10cvpr.pdf