La détection de phonèmes, étape clé de la reconnaissance de la parole

Les grandes étapes de la reconnaissance de la parole : la détection de phonèmes

chaine de reconnaissance automatique de la parole et phonèmes

Chaîne d’acquisition et de traitement du signal de parole


Suite à la la série d’articles cet été 2016, présentant les composants fondamentaux de la chaîne de transcription automatique de la parole en texte, nous allons aborder de manière plus précise la façon dont le système est capable de faire le lien entre :

-un fichier audio contenant de la parole,
-le texte prononcé.

Pour une meilleure compréhension, nous vous invitons à lire les précédents articles :

Système de production de la parole : cet article permet de comprendre les caractéristique qui permette de reconnaître un phonème. 
Les phonèmes et le langage : cet article permet de comprendre la notion de phonèmes. 
Technologie et système de reconnaissance automatique : cet article offre une description rapide des différents composants des système de reconnaissance automatique de la parole.

Nous allons décrire les étapes principales permettant de transcrire un fichier audio en texte.


La reconnaissance de phonèmes

 

La reconnaissance de phonèmes est effectuée grâce au modèle acoustique. Le modèle acoustique est créé en utilisant des algorithmes d’apprentissage automatique (machine learning en anglais). Le machine learning se décompose en deux phases :
l’entraînement, et le test.
Le modèle acoustique est tout d’abord calculé lors de la phase d’entraînement, puis, le modèle est utilisé lors de la phase de décodage permettant la transcription de l’énoncé audio en texte.


1. La phase d’entraînement

 

Lors de cette phase d’apprentissage, on utilise de grands volumes audio (plusieurs centaines d’heures), pour lesquelles les données ont été préalablement transcrite. Ces données permettent de faire le lien entre une réalisation acoustique et un phonème. Pour chaque phonème, un grand nombre de réalisations acoustiques vont être étudiées : ces différentes réalisations peuvent être variables à cause du bruit, de la réverbération, des différents locuteurs, des différents contextes phonétique (phonème précédent et phonème suivant) etc. 
Par exemple, si on prend le cas du phonème [a]. L’observation du comportement énergétique dans le repère temps-fréquence d’un très grand nombre de phonèmes [a] prononcés dans différentes conditions, va permettre la création d’un modèle de [a] « général » en utilisant un mélange de
loi gaussiennes (GMM).

phonèmes et création de moddèle

             Figure 1 : Création d’un modèle de [a] grâce aux multiples occurrences de [a] des fichiers audio utilisés en apprentissage


Comme on peut le constater dans la figure 1, les [a] prononcés par différents locuteurs sont légèrement différents. Cela est aux variations du triangle vocalique qui est propre aux locuteurs.


2. Adaptation aux locuteurs


Afin de pouvoir utiliser au mieux notre modèle de [a] général, nous allons devoir adapter ce modèle aux locuteurs lors du décodage (qui effectue la transcription automatique d’un fichier audio en texte). Comme il existe un grand nombre de méthode d’adaptation, nous allons juste voir le principe.
Le modèle du [a], précédemment calculé lors de la phase d’apprentissage, va
subir une transformation mathématique de ses paramètres, comme des translations et des rotations afin que l’espace de ces paramètres soit le plus proche de l’espace des paramètres d’un locuteur inconnu. Une fois cette transformation effectuée, notre modèle général se spécialisera pour mieux modéliser le locuteur inconnu.

Adaptation de phonèmes
                                                                         Figure 2 : Adaptation du modèle général [a] au locuteur x


Une fois notre modèle acoustique adapté, il est prêt à l’emploi.


3. La phase de test


Nous allons observer au cours du temps, le comportement de l’énergie dans le repère temps-fréquence du fichier audio dont on souhaite connaître les phonèmes les plus probablement prononcés. Si l’observation n est plus proche du modèle du phonème [a], alors le phonème [a] sera le phonème le plus probablement prononcé.

détection des phonèmes

                                                                  Figure 3 : Principe de la détection des phonèmes


Nous avons vu comment le système est capable de reconnaître un phonème. Cependant, la détection de phonème n’est pas toujours correcte.

taux d'erreurs de phonèmes

                                                   Figure 4 :Taux d’erreur de phonèmes actuel sur le corpus TIMIT (lecture de texte).


Pour le moment, le système est capable de prédire des suites de phonèmes qui ne sont pas des mots. Par exemple, [k] [p] [z] [ɔ̃] (kpzon) est possible.

Dans un prochain article, nous nous intéresserons au modèle de prononciation, qui permettra de forcer la détection d’une suite de phonèmes afin de reconnaître uniquement des mots.

tester l'application Authôt


Authôt. Vous parlez. Nous écrivons.