![]() Um ADC traduz as ondas analógicas da sua voz em dados digitais ao samplear o som. Quanto maiores as taxas de digitalização e precisão, maior a qualidade. |
A seguir, o sinal é dividido em segmentos menores, de até uns poucos centésimos de segundo ou até milésimos, no caso de sons consoantes plosivos, paradas de consoantes produzidas pela obstrução do fluxo de ar no trato vocal (como o "p" ou o "t"). O programa, então, contrapõe esses segmentos aos fonemas conhecidos do idioma desejado. Um fonema é o menor elemento de um idioma, uma representação dos sons que criamos e juntamos para formar expressões com sentido. Há 34 fonemas na língua portuguesa. Outras línguas, por sua vez, podem ter um número maior ou menor.
![]() |
O próximo passo parece simples, mas na verdade é o mais difícil de ser feito e é o principal foco da maioria das pesquisas feitas sobre o reconhecimento de voz: o programa examina os fonemas dentro do contexto de outros fonemas ao redor deles. Ele analisa o resultado por um modelo estatístico complexo e os compara com uma grande coleção de palavras, frases e sentenças conhecidas. Por fim, o programa determina o que o usuário provavelmente estava dizendo e o transforma em texto ou comandos para o computador.
A seguir, vamos ver mais de perto como isso é feito.