L'étude du modèle de langage dans la reconnaissance vocale

Modèle de langage : l’anticipation de mots cohérents

chaîne de reconnaissance pour modèle de langage

  
Nous avons vu précédemment comment le système est capable de reconnaître des mots, et l’importance de la prononciation. Nous avions aussi conclu que le système pouvait reconnaître une suite de mots incohérentes.

Nous allons nous intéresser dans cet article au modèle de langage et décrire comment forcer la détection de phrases plus cohérentes.
 

La reconnaissance de phrases grâce au modèle de langage

Afin de forcer la détection de phrases plus cohérentes, nous utilisons le modèle de langage.

Le modèle de langage, tout comme le modèle acoustique est construit grâce à une étude statistique. De nombreuses méthodes existent, mais nous allons ici spécifiquement nous intéresser au modèle n-gram.

Lors de la phase d’apprentissage, de grande quantité de textes sont analysées afin d’estimer la probabilité conditionnelle d’un futur mot, sachant les « n-1 mots précédents ». Cela veut dire que pour chaque mot présent dans un texte, on va étudier la probabilité que ce mot apparaisse en connaissant les « n-1 mots précédents ».

Cette étude, lorsqu’elle est effectuée sur de grande quantité de texte, permet de modéliser des liens entre les mots. Il sera plus probable qu’un verbe soit précédé par un sujet ou qu’un adjectif soit précédé ou succède un nom. En effet, dans les textes utilisés lors de l’apprentissage ces cas seront plus envisagés.

Lors de la phase de décodage, nous utilisons les statistiques pré calculées afin de prédire un futur mot grâce au mot précédent. Par exemple, il sera plus probable d’observer cette suite de mot « le chien aboie », que « le chien miaule » et encore plus probable que « le chien maison ». Toutes ces probabilités sont modélisées sous forme de graphe appelé treillis de mots.

 

treillis de mots et modèle de langage

 

                                                                      Figure 1 : Exemple d'un treillis de mots 


Grâce au modèle de langage nous sommes en mesure de créer des liens probabilistes entre les mots, ce qui permet d’obtenir une suite de mots plus logique. Le défaut est que la parole contient des fautes de syntaxe, des hésitations et des formulations propres à un langage parlé. Cela est tout simplement au fait que nous ne parlons pas de la même manière que nous écrivons. Par exemple, alors qu’à l’oral il est plus courant de dire « Il pleut ? », il est plus courant de l’écrire « Pleut-il ? ». Ces différences seront moins bien modélisées.

 

Le décodage : la transformation d’un audio en texte

Nous avons vu le modèle acoustique, le modèle de prononciation et le modèle de langage. Nous avons vu toutes les étapes qui permettent de transcrire un fichier audio en texte. La phase de décodage, grâce à une combinaison des trois modèles, permet de prédire les phrases les plus probablement prononcées par une personne. Voici un schéma récapitulant le processus.

 

récapitulatif des modèle acoustique, modèle de prononciation, modèle de langage

 

                                                                                     Figure 2 : Récapitulatif des différents modèles 


Ainsi s’achève notre série R&D ayant pour but de vous montrer comment le système est capable de faire le lien entre :

-un fichier audio contenant de la parole,
-le texte prononcé.

Nous nous sommes intéressés dans ces 3 articles à la question des phonèmes, à l’importance de la prononciation, pour terminer sur le modèle de langage qui permet au système de rendre les suites de mots cohérentes.

Toutes ces étapes sont essentielles lorsqu’on cherche à comprendre le fonctionnement de la technologie de reconnaissance vocale.

tester l'application Authôt

Authot. Vous parlez. Nous écrivons.