Reconhecimento de voz: pontos fracos e falhas

Um microfone que cancela ruídos
Imagem cedida por Amazon
Um microfone de alta qualidade que cancela ruídos pode ajudar na precisão do seu sistema de reconhecimento de voz
Nenhum sistema de reconhecimento de voz é 100% perfeito, vários fatores podem reduzir a precisão. Alguns desses são fatores que continuam a melhorar conforme a tecnologia se desenvolve; já outros podem ser reduzidos e, talvez, até completamente corrigidos pelo usuário.

Baixa relação entre sinal e ruído
O programa precisa "escutar" as palavras faladas de modo que as diferencie bem, mas qualquer ruído extra que seja introduzido junto ao som irá interferir nisso. O ruído pode vir de várias fontes diferentes, incluindo o alto ruído de fundo de um escritório. Recomenda-se que os usuários trabalhem em uma sala silenciosa e com um microfone de qualidade posicionado bem próximo de suas bocas. Placas de som, que fornecem a entrada pela qual o microfone envia o sinal para o computador, de baixa qualidade geralmente não têm proteção o bastante contra os sinais elétricos produzidos por outros componentes do computador, e isso pode introduzir zumbidos ou assovios no sinal.

Falas sobrepostas
Os sistemas atuais têm dificuldade de separar falas simultâneas de usuários múltiplos. "Caso você tente usar a tecnologia de reconhecimento em conversas ou reuniões, onde as pessoas freqüentemente se interrompem ou atropelam a fala umas das outras, você provavelmente vai conseguir resultados extremamente fracos", diz John Garofolo.

Uso intenso da potência do computador
Realizar os modelos estatísticos necessários para o reconhecimento de voz requer que o processador do computador trabalhe de forma intensa. Uma razão para isso é a necessidade de lembrar cada estágio da busca do reconhecimento de palavras caso o sistema precise recuar para encontrar a palavra certa. Os PCs atuais mais rápidos ainda podem ter dificuldades com comandos ou frases complicadas, o que diminui significativamente o tempo de resposta. Além disso, as listas de vocabulário de que os programas precisam também ocupam uma grande quantidade de espaço no disco rígido. Felizmente, o armazenamento em disco e a velocidade dos processadores são áreas que avançam muito rapidamente, permitindo que os computadores que serão usados daqui a 10 anos se beneficiem muito do aumento exponencial desses fatores.

Homônimos
Homônimos são duas palavras que são soletradas de maneiras diferentes e têm significados diferentes, mas têm o mesmo som. "Sessão" e "cessão", e "conserto" e "concerto" são alguns exemplos. Não há como o programa de reconhecimento de voz diferenciar essas palavras baseando-se somente no som. No entanto, o treino extensivo de sistemas e modelos estatísticos que levam em consideração o contexto da palavra já aumentaram bastante seu desempenho.

Vamos dar uma olhada nos programas de reconhecimento de voz do futuro na próxima página.