La détection de phonèmes, étape clé de la reconnaissance de la parole
Les grandes étapes de la reconnaissance de la parole : la détection de phonèmes
Chaîne d’acquisition et de traitement du signal de parole
Suite à la la série d’articles cet été 2016, présentant les composants fondamentaux de la chaîne de transcription automatique de la parole en texte, nous allons aborder de manière plus précise la façon dont le système est capable de faire le lien entre :
-un fichier audio contenant de la parole,
-le texte prononcé.
Pour une meilleure compréhension, nous vous invitons à lire les précédents articles :
• Système de production de la parole : cet article permet de comprendre les caractéristique qui permette de reconnaître un phonème.
• Les phonèmes et le langage : cet article permet de comprendre la notion de phonèmes.
• Technologie et système de reconnaissance automatique : cet article offre une description rapide des différents composants des système de reconnaissance automatique de la parole.
Nous allons décrire les étapes principales permettant de transcrire un fichier audio en texte.
La reconnaissance de phonèmes
La reconnaissance de phonèmes
l’entraînement, et le test.
Le modèle acoustique est tout d’abord calculé lors de la phase d’entraînement, puis, le modèle est utilisé lors de la phase de décodage permettant la transcription de l’énoncé audio en texte.
1. La phase d’entraînement
1. La phase d’entraînement
Par exemple, si on prend le cas du phonème [a]. L’observation du comportement énergétique dans le repère temps-fréquence d’un très grand nombre de phonèmes [a] prononcés dans différentes conditions, va permettre la création d’un modèle de [a] « général » en utilisant un mélange de loi gaussiennes (GMM).
Figure 1 : Création d’un modèle de [a] grâce aux multiples occurrences de [a] des fichiers audio utilisés en apprentissage
Comme on peut le constater dans la figure 1, les [a] prononcés par différents locuteurs sont légèrement différents. Cela est dû aux variations du triangle vocalique qui est propre aux locuteurs.
2. Adaptation aux locuteurs
2. Adaptation aux locuteurs
Afin de pouvoir utiliser au mieux notre modèle de [a] général, nous allons devoir adapter ce modèle aux locuteurs lors du décodage (qui effectue la transcription automatique d’un fichier audio en texte). Comme il existe un grand nombre de méthode d’adaptation, nous allons juste voir le principe.
Le modèle du [a], précédemment calculé lors de la phase d’apprentissage, va subir une transformation mathématique de ses paramètres, comme des translations et des rotations afin que l’espace de ces paramètres soit le plus proche de l’espace des paramètres d’un locuteur inconnu. Une fois cette transformation effectuée, notre modèle général se spécialisera pour mieux modéliser le locuteur inconnu.
Figure 2 : Adaptation du modèle général [a] au locuteur x
Une fois notre modèle acoustique adapté, il est prêt à l’emploi.
3. La phase de test
3. La phase de test
Nous allons observer au cours du temps, le comportement de l’énergie dans le repère temps-fréquence du fichier audio dont on souhaite connaître les phonèmes les plus probablement prononcés. Si l’observation n est plus proche du modèle du phonème [a], alors le phonème [a] sera le phonème le plus probablement prononcé.
Figure 3 : Principe de la détection des phonèmes
Nous avons vu comment le système est capable de reconnaître un phonème. Cependant, la détection de phonème n’est pas toujours correcte.
Figure 4 :Taux d’erreur de phonèmes actuel sur le corpus TIMIT (lecture de texte).
Pour le moment, le système est capable de prédire des suites de phonèmes qui ne sont pas des mots. Par exemple, [k] [p] [z] [ɔ̃] (kpzon) est possible.
Dans un prochain article, nous nous intéresserons au modèle de prononciation, qui permettra de forcer la détection d’une suite de phonèmes afin de reconnaître uniquement des mots.
Authôt. Vous parlez. Nous écrivons.