Software de reconhecimento de voz utiliza sistema de redes neurais pulsadas

Agência USP - 16/06/2004

Um estudo realizado na Escola Politécnica da USP possibilitou a elaboração de um software de reconhecimento de voz baseado na utilização de redes neurais pulsadas. Redes neurais são sistemas usados em inteligência artificial compostos de circuitos que simulam o cérebro humano. Atualmente, as do tipo pulsadas são as que mais se aproximam desta estrutura. Trata-se de um trabalho inédito no Brasil, já que é a primeira vez que o sistema é demonstrado com sucesso.

O engenheiro eletrônico Antonio Pedro Timoszczuk, que defendeu sua tese de doutorado na Poli, explica que o software de reconhecimento de voz construído com base em redes neurais pulsadas ainda não poderá ser viabilizado em escala comercial. "O objetivo principal foi estudar o comportamento deste novo paradigma neural em um sistema prático. Creio que somente em dois ou três anos é que poderemos ter arquiteturas de rede como esta implementadas em chips comerciais", prevê.

Em seu estudo, o engenheiro implementou uma arquitetura de rede com neurônios pulsados que têm por característica um funcionamento mais próximo do sistema biológico do cérebro humano. "O sistema permite um processamento temporal dos sons", explica Timosczuzk. No processo humano de audição, impulsos elétricos são enviados ao cérebro que interpreta suas seqüências e relações de tempo, o que leva a identificar o tipo de som. "A rede neural pulsada possibilita um tratamento similar. A partir das informações dos sons, ela busca as relações entre eles gerando padrões temporais", descreve o engenheiro, ressaltando que o processamento é mais simples em relação às redes neurais convencionais.

O paradigma das redes neurais pulsadas começou a ser pesquisado mais intensamente em meados dos anos 90. Após consultar diversas bibliografias sobre o tema, o pesquisador encontrou poucos trabalhos relacionados com aplicações práticas. Dentre estes, um realizado no Canadá há cerca de dois anos: "Na pesquisa canadense foi obtido 57% de acerto, o que é considerado baixo. Em nosso estudo, atingimos 90%. Com menos elementos (neurônios) o sistema possibilita a realização de processamentos mais complexos", garante.

O cérebro humano possui cerca de 100 bilhões de neurônios que chegam a realizar entre si mais de 10 mil conexões. Uma rede neural artificial convencional pode necessitar de algumas milhares de iterações (repetições) durante o seu treinamento até atingir um índice de erros aceitável. Na arquitetura com redes pulsadas o número de iterações requerido é sensivelmente menor. No trabalho realizado foram realizadas 500 iterações com menor número de neurônios artificiais. Outra vantagem destacada por Timoszczuk é o fato de a arquitetura possibilitar a implementação do sistema em hardware. "Ao invés de se operar a rede por meio de um software, este paradigma neural permite que a rede seja implementada diretamente em circuitos integrados", explica.

Para realizar seu trabalho, o engenheiro utilizou uma base de dados Speaker Recognition v1.0, do CSLU - Center for Spoken Language Understanding do Oregon Graduate Institute - E.U.A., contendo frases gravadas a partir de linhas telefônicas digitais.