Redação do Site Inovação Tecnológica - 27/08/2012
Tradutor instantâneo
Pesquisadores noruegueses estão prestes a concluir um programa de reconhecimento de voz e tradução automática que pretende nada menos do que ser capaz de reconhecer qualquer idioma, sem necessidade de aprendizado prévio.
Os tradutores instantâneos são bem conhecidos dos filmes de ficção científica. Na realidade, o que melhor se conseguiu até hoje são os tradutores online, que dependem de textos escritos.
Os comandos de voz, por sua vez, estão restritos a "conversas" limitadas com um telefone celular, sempre em um idioma bem definido.
A maior dificuldade é justamente obter um reconhecimento de voz preciso.
Por isso espanta o ambicioso projeto coordenado pelo professor Torbjorn Svendsen, da Universidade de Ciência e Tecnologia da Noruega.
Preocupados com o isolamento do país, devido em parte ao seu pouco falado idioma, a equipe quer logo um programa que entenda qualquer idioma.
Diferenças na fala
As linguagens faladas diferem largamente das linguagens escritas que, na maior parte do mundo, são expressas sempre pelas mesmas 26 letras. Na fala, contudo, a linguagem difere de indivíduo para indivíduo, mesmo entre falantes do mesmo idioma.
Apesar disso, Svendsen e seus colegas descobriram que a vocalização humana é fundamentalmente a mesma de um idioma para o outro - ela depende de um aparato fisiológico similar, que funciona sempre da mesma maneira.
O método envolve treinar um programa de computador para que ele determine que partes dos órgãos da fala são ativadas, partindo unicamente da análise da pressão das ondas sonoras captadas pelo microfone.
Desta forma, a tecnologia que eles estão desenvolvendo poderá ser aplicada a qualquer língua, sem depender de falantes de cada idioma para treinar uma máquina.
Os pesquisadores basearam sua abordagem na fonética, isto é, no estudo dos sons da fala humana.
Eles também incorporaram ao sistema uma correspondência entre a frequência do som e as palavras, e como as palavras são colocadas juntas para formar sentenças.
Tecnologias de reconhecimento de voz
Hoje, existem basicamente dois tipos de sistemas de reconhecimento de voz, ambos baseados em textos escritos e vocalizações gravadas para treinar o programa.
O primeiro método é estatístico, baseando-se na frequência de pico da vocalização. Por exemplo, um pico entre 750 e 1.200 hertz (Hz) indica um "a", enquanto um pico entre 350 e 800 Hz indica um "u".
O segundo método consiste em deixar o treinamento por conta de um programa de inteligência artificial rodando no computador, e alimentando-o com volumes gigantescos de dados.
A abordagem da equipe norueguesa é mista, incluindo aprendizado a partir de dados, aprendizado por regras e a análise instantânea dos padrões sonoros.
"Temos grande confiança na abordagem estatística. Entretanto, também precisamos considerar os padrões de previsibilidade que existem na fala no mundo real," diz o pesquisador.
Isto porque o jeito de falar varia de indivíduo para indivíduo, devido a variações no dialeto, na fisiologia, na educação, no sotaque e até na saúde de cada pessoa.
Tudo isso afeta a produção da voz e a estrutura das frases, e o programa é capaz de reconhecer isto.
"Estamos atualmente desenvolvendo um programa de computador que determina a probabilidade de várias características distintivas estarem presentes ou ausentes durante a produção do som. Por exemplo, se há vibração das cordas vocais, isso indica a ocorrência de um som vocalizado. Este é o nosso método de classificação de sons," explica o professor Svendsen.
Isolamento do idioma
Os resultados estão se mostrando mais do que promissores.
Os cientistas afirmam que o módulo básico de classificação dos sons já é independente da linguagem, e o próximo passo é extrair essa parte do código para criar um módulo que possa ser usado em produtos de reconhecimento de voz comerciais - em qualquer idioma.
O programa leva de 30 a 60 segundos para identificar um idioma, passando a interpretá-lo corretamente a partir daí, sem novas esperas.
"Esta solução vai resultar em economias tanto de tempo quanto de dinheiro. É uma tecnologia importante, e não só para as pessoas que fazem parte de um grupo de língua pouco falada, como a norueguesa. Há um número impressionante de línguas com apenas alguns milhões de falantes, que podem se beneficiar enormemente de tais ferramentas," conclui o Dr. Svendsen.