![]() Imagem cedida por Amazon Um microfone de alta qualidade que cancela ruídos pode ajudar na precisão do seu sistema de reconhecimento de voz |
Baixa relação entre sinal e ruído
O programa precisa "escutar" as palavras faladas de modo que as diferencie bem, mas qualquer ruído extra que seja introduzido junto ao som irá interferir nisso. O ruído pode vir de várias fontes diferentes, incluindo o alto ruído de fundo de um escritório. Recomenda-se que os usuários trabalhem em uma sala silenciosa e com um microfone de qualidade posicionado bem próximo de suas bocas. Placas de som, que fornecem a entrada pela qual o microfone envia o sinal para o computador, de baixa qualidade geralmente não têm proteção o bastante contra os sinais elétricos produzidos por outros componentes do computador, e isso pode introduzir zumbidos ou assovios no sinal.
Falas sobrepostas
Os sistemas atuais têm dificuldade de separar falas simultâneas de usuários múltiplos. "Caso você tente usar a tecnologia de reconhecimento em conversas ou reuniões, onde as pessoas freqüentemente se interrompem ou atropelam a fala umas das outras, você provavelmente vai conseguir resultados extremamente fracos", diz John Garofolo.
Uso intenso da potência do computador
Realizar os modelos estatísticos necessários para o reconhecimento de voz requer que o processador do computador trabalhe de forma intensa. Uma razão para isso é a necessidade de lembrar cada estágio da busca do reconhecimento de palavras caso o sistema precise recuar para encontrar a palavra certa. Os PCs atuais mais rápidos ainda podem ter dificuldades com comandos ou frases complicadas, o que diminui significativamente o tempo de resposta. Além disso, as listas de vocabulário de que os programas precisam também ocupam uma grande quantidade de espaço no disco rígido. Felizmente, o armazenamento em disco e a velocidade dos processadores são áreas que avançam muito rapidamente, permitindo que os computadores que serão usados daqui a 10 anos se beneficiem muito do aumento exponencial desses fatores.
Homônimos
Homônimos são duas palavras que são soletradas de maneiras diferentes e têm significados diferentes, mas têm o mesmo som. "Sessão" e "cessão", e "conserto" e "concerto" são alguns exemplos. Não há como o programa de reconhecimento de voz diferenciar essas palavras baseando-se somente no som. No entanto, o treino extensivo de sistemas e modelos estatísticos que levam em consideração o contexto da palavra já aumentaram bastante seu desempenho.
Vamos dar uma olhada nos programas de reconhecimento de voz do futuro na próxima página.