O futuro do reconhecimento de voz

Demo do Vista SR
Os prováveis problemas que surgem ao usar o reconhecimento de voz foram mostrados em público em uma demonstração recente do Windows Vista. Embora o sistema tenha tido um desempenho perfeito ao abrir programas e acessar documentos, a mesma precisão não apareceu na hora de transcrever textos. Os problemas provavelmente vieram do ruído de fundo e do eco presentes no grande auditório onde ocorreu a demonstração. Não demorou muito para um vídeo do incidente se espalhar pela Internet, atingindo as reputações do Windows Vista e do reconhecimento de voz em geral.
Os primeiros desenvolvimentos no reconhecimento de voz são, pelo menos, 50 anos mais velhos do que a invenção do computador moderno. Alexander Graham Bell foi inspirado a experimentar meios de transmitir a fala à sua esposa, que era surda. Inicialmente, ele esperava criar um dispositivo que transformaria palavras audíveis em uma imagem visível que pudesse ser interpretada por uma pessoa surda. E apesar de ele ter conseguido produzir imagens espectográficas de sons, sua mulher não foi capaz de decifrá-las. No entanto, essa linha de pesquisa acabou levando à invenção do telefone.

Por várias décadas, cientistas desenvolveram métodos experimentais de reconhecimento computadorizado de voz, mas o poder de computação disponível na época impunha limitações a eles. Foi somente na década de 90 que surgiram computadores pessoais potentes o bastante para lidar com o reconhecimento de voz. As pesquisas atuais poderiam levar a tecnologias que atualmente são mais parecidas com as usadas em um episódio de "Jornada nas Estrelas". A DARPA (Agência para Projetos de Pesquisas Avançadas de Defesa) possui três times de pesquisadores trabalhando em GALE (Exploração da Linguagem Autônoma Global), um programa que está recebendo fluxos de informação de telejornais e jornais estrangeiros e traduzindo-os. Com isso, espera-se criar um programa que possa fazer traduções instantâneas entre duas línguas com, pelo menos, 90% de precisão. "A DARPA também está financiando um projeto de pesquisa e desenvolvimento chamado TRANSTAC, cujo objetivo é permitir que soldados americanos se comuniquem de maneira mais eficiente com civis em países cuja língua não é o inglês", diz Garofolo, adicionando que a tecnologia sem dúvida gerará aplicativos para usos civis, incluindo um tradutor universal.

Mas vale lembrar que um tradutor universal ainda só é real em um futuro distante, pois é muito difícil construir um sistema que combine tradução automática com tecnologia de ativação de voz. De acordo com um artigo recente da CNN, o projeto é considerado "difícil mesmo para os padrões extremos" da DARPA. Por quê? Um problema é criar um sistema que possa lidar, sem falhas, com problemas como gírias, dialetos, sotaques e ruído de fundo. Além disso, também há o problema das diferentes estruturas gramaticais de cada idioma. O árabe, por exemplo, algumas vezes usa palavras simples para transmitir idéias que precisam de frases inteiras em inglês.

Em algum ponto do futuro, é possível que o reconhecimento de voz se torne compreensão de voz. Os modelos estatísticos que permitem que computadores decidam o que uma pessoa acabou de dizer também podem vir a permitir que eles entendam o significado por trás das palavras. Embora isso seja um gigantesco passo em termos de potência de computação e sofisticação dos programas, alguns pesquisadores defendem que o desenvolvimento do reconhecimento de voz oferece o caminho mais direto entre os computadores atuais e a inteligência artificial. Atualmente, podemos falar com nossos computadores, mas, em 25 anos, pode ser que eles é que falem conosco.

Para mais informações sobre o reconhecimento de voz e assuntos relacionados, verifique os links na próxima página.