Comment marche le système de production de la parole ?
Production de la parole
Un point essentiel du processus de conversion de la parole en texte concerne la capture du signal acoustique par le système. En d’autres termes, pour transcrire ce que nous lui dictons, l’ordinateur doit d’abord nous entendre. Ce traitement se compose de quatre étapes clés :
- la production de la parole,
- la capture du son par le microphone,
- la numérisation du signal et enfin,
- son traitement par les algorithmes de reconnaissance de la parole.
Commençons par distinguer deux notions souvent confondues : la voix et la parole.
Chaîne d'acquisition du signal de parole
La voix et la parole
Il existe une différence fondamentale entre voix et parole.
- La voix est l'ensemble des bruits produits oralement. Elle se matérialise sous forme d’ondes mécaniques qui se propagent dans l’air en vibrant à des fréquences d’oscillation allant de 40 hertz à 8 kilohertz. Pour rappel, plus la fréquence est élevée, plus l’onde vibre rapidement et plus le son est aigu.
- La parole, quant à elle, se définit par l’ensemble des sons de voix utilisés dans un langage. Les fréquences des sons nécessaires pour produire un message intelligible se situent dans une bande de fréquences plus étroite entre 300 hertz et 3,4 kilohertz. Les téléphones analogiques d’autrefois ne transmettaient que dans ces fréquences, et c’est ce qui donnait un côté nasillard à la voix.
Les algorithmes de “transcription de la parole” se focalisent sur la reconnaissance du message et sa conversion en texte.
A contrario, les technologies de “reconnaissance vocale” sont utilisées, par exemple dans une investigation policière, pour identifier quelqu’un grâce à sa voix.
En résumé, une même parole peut sans aucun doute être produite par plusieurs voix, mais votre voix est en général unique car elle est intimement liée à votre morphologie. Ceci nous amène tout de suite à introduire quelques notions concernant le système de production de la parole.
L’instrument de la parole : l’appareil phonatoire
La production de la parole relève de phénomènes complexes largement étudiés pour leur rôle dans les processus cognitifs humains. Nous nous limiterons ici aux aspects physiologiques.
L'être humain sain produit un son en chassant l'air de ses poumons. Plus précisément, c’est l’appareil phonatoire, c’est à dire le couplage entre les poumons, les cordes vocales, le conduit vocal, les cavités buccale et nasale, avec la position de la langue, de la mâchoire, des lèvres, des dents, qui nous permet de modifier notre voix de manière à répartir l’énergie déployée sur des modes vibratoires correspondant aux sons d’un langage.
En posant simplement votre main sur votre gorge, vous pourrez distinguer deux types de sons.
Les sons voisés, tout d’abord, sont produits par vibration des cordes vocales et correspondent aux voyelles comme /a/ et /o/. Sur la gauche des courbes en rouge sur la figure ci-dessous, ces sons voisés présentent des pics de résonance dans les basses et moyennes fréquences.
Les sons non-voisés comme la sifflante /s/ et l’explosive /p/ ne requiert pas de vibration des cordes vocales. C’est la position de la langue et des lèvres qui vont mener à une répartition de l’énergie dans des gammes de fréquences différentes.
Ces différences sont exploitées par les algorithmes de transcription automatique de la parole.
Merci de votre attention !
Comment un programme informatique est-il capable de convertir la parole en texte?
C’est le thème des articles que nous continuons de développer sur le blog d' Authôt cet été. Restez à l’écoute !
Authôt : Vous parlez. Nous écrivons.