Logotipo do Site Inovação Tecnológica





Informática

Criado um mecanismo de busca para programas de TV

Redação do Site Inovação Tecnológica - 12/08/2009


Programa de reconhecimento de voz

Acostumados com o Google e com outros mecanismos de busca, os internautas podem se perguntar como é que os canais de TV fazem quando querem mostrar uma imagem de arquivo, na qual foi noticiado um determinado tema ou mostrado determinado personagem que está novamente ganhando destaque.

Há basicamente duas formas. A primeira é usar a memória dos funcionários, que podem oferecer delimitações para os programas e as datas onde a busca deve ser feita; a seguir, o funcionário assiste os videotapes, programa por programa, até encontrar o que procura.

Há uma alternativa "mais tecnológica": investir em um programa de reconhecimento de voz e fazer algo equivalente a uma "digitalização vocal" de todo o arquivo - o programa é treinado para reconhecer as palavras faladas por cada locutor, compondo pouco a pouco o seu próprio dicionário.

Há dois grandes problemas com esta tecnologia no atual nível em que ela se encontra: o processo é caro, porque exige funcionários treinados para inserir os dados no sistema, que deve ser constantemente atualizado, e o programa nem sempre consegue encontrar termos que se tornam líderes de audiência no presente, mas para os quais ninguém ligava no passado, como "atos secretos," ou "Obama," por exemplo.

Dicionário de sílabas

Agora, uma pesquisa feita no Instituto Fraunhofer, na Alemanha, está fazendo uma atualização radical nesses sistemas que poderá resolver de uma só vez os dois problemas - o novo sistema de reconhecimento de voz não exige as caras e demoradas atualizações dos dicionários.

"Nosso sistema é baseado em um dicionário de sílabas, e não em um dicionário de palavras. Os sistemas de reconhecimento de voz convencionais conseguem identificar apenas um número limitado de palavras, enquanto o número total de palavras que existem é grande demais para se lidar. Já o número de sílabas existentes é muito menor e mais fácil de lidar. Com cerca de 10.000 sílabas nós conseguimos montar virtualmente qualquer palavra," resume o Dr. Daniel Schneider, coordenador do trabalho.

O programa é capaz também de reconhecer novas palavras de forma independente, sem a necessidade de um funcionário treiná-lo. Por exemplo, o dicionário certamente conterá as sílabas "a", "tos", "se", "cre" e "tos", e poderá localizar qualquer referência ao termo nos programas do passado.

Busca em vídeos

No início de cada busca, os programas de TV são divididos em segmentos. Tão logo alguém comece a falar, o programa salva a cena seguinte como um novo segmento. O usuário então navega de participante em participante, podendo selecionar apenas o que um entrevistado ou entrevistador em particular está falando.

Em uma segunda etapa, as palavras individuais são analisadas pelo algoritmo de reconhecimento de voz. Neste momento, o usuário pode entrar o termo a ser pesquisado em uma janela, exatamente como faria em um mecanismo de busca da Internet.

Os resultados também são mostrados como em um mecanismo de busca, mostrando as frases onde o termo procurado foi localizado. O usuário então clica nas frases de seu interesse e o sistema reproduz o trecho do programa onde a palavra foi falada.

Segundo os pesquisadores sistema consegue localizar as palavras faladas em um programa com um nível de 85% acerto.

Seguir Site Inovação Tecnológica no Google Notícias





Outras notícias sobre:
  • Software e Programação
  • Inteligência Artificial
  • Imagens 3-D
  • Equipamentos Eletrônicos

Mais tópicos