Introdução

Atualmente, quando ligamos para a maior parte das grandes empresas, não é uma pessoa que costuma atender o telefone. É uma gravação automática que atende e o instrui a pressionar botões para passar pelos diferentes menus. No entanto, muitas empresas já passaram desse estágio de ter de apertar botões, pedindo que você fale certas palavras (novamente, como foi instruído por uma gravação) para conseguir o que quer. O sistema que torna isso possível é um tipo de programa de reconhecimento de voz, um sistema de telefone automatizado.

Software de reconhecimento de voz
Imagem cedida por Amazon
Há vários programas domésticos para reconhecimento de voz

Também dá para usar softwares de reconhecimento de voz em casas e empresas. Vários produtos permitem que os usuários ditem ao seu computador para que ele converta suas palavras em texto quando estiverem usando um processador de textos ou escrevendo um e-mail. Também é possível acessar comandos de função, como abrir arquivos e acessar menus com instruções de voz. E há programas projetados para áreas específicas, como transcrição médica ou legal.

Pessoas com deficiências que os impedem de digitar também já adotaram sistemas de reconhecimento de voz. Se um usuário não pode usar suas mãos, ou para deficientes visuais nos casos em que não é possível ou conveniente usar um teclado Braille, esses sistemas permitem que eles se expressem ditando textos e que tenham controle sobre várias das funções do computador. Alguns programas salvam os dados da fala do usuário após cada sessão, o que permite que pessoas com deterioração progressiva da fala continuem a ditar aos seus computadores.

Os programas atuais se dividem em duas categorias:

vocabulário pequeno/muitos usuários
Ideais para atendimento automático de telefone. Os usuários podem falar com uma grande variação de sotaques e padrões de fala que o sistema ainda os entenderá na maior parte das vezes. No entanto, o uso se limita a um pequeno número pré-determinado de comandos e entradas, como opções de menu básicas ou números;

Agradecimento
Para criar este artigo, falamos com John Garofolo, Gerente de Fala do Laboratório de Tecnologia da Informação do National Institute of Standards and Technology (Instituto Nacional de Padrões e Tecnologia). Agradecemos também a Joshua Senecal por sua colaboração neste artigo.
vocabulário grande/usuários limitados
Funciona melhor em pequenos negócios, nos quais um pequeno número de usuários irá trabalhar com o programa. Embora esses sistemas funcionem com um bom grau de precisão (85% ou mais para usuários experientes) e tenham listas de vocabulário com mais de 10 mil palavras, é necessário treiná-los para que funcionem melhor com um número pequeno de usuários principais. Esta taxa de precisão irá cair drasticamente com qualquer outro usuário.

Os sistemas de reconhecimento de voz criados há mais de 10 anos também enfrentaram a escolha entre a fala discreta e contínua. O programa tem uma facilidade muito maior de entender as palavras quando as falamos separadamente, com uma pausa entre cada uma. Entretanto, como a maioria dos usuários prefere falar em velocidade normal, como durante uma conversa, quase todos os sistemas modernos são capazes de entender a fala contínua.