La prononciation : le lien entre phonèmes et mots

L’importance des différentes prononciations dans la reconnaissance de mots

prononciation chaîne de reconnaissance de mots

 


Nous avons vu précédemment dans l’article «La détection de phonèmes, étape clé de la reconnaissance de la parole» comment le système était capable de reconnaître des phonèmes. Nous avions aussi conclu que le système pouvait reconnaître des mots qui n’existe pas. Nous allons nous intéresser dans cet article à la prononciation et décrire comment forcer la détection de mots valides.


La combinaison entre le modèle acoustique et le modèle de prononciation


La prononciation d’un mot est constituée d’une suite de phonèmes, et un même mot peut être prononcé de différentes manières. Le modèle de prononciation (aussi appelé dictionnaire phonétique ou lexique) permet de lister toutes les prononciations de tous les mots que le système sera en mesure de reconnaître.
Afin de prendre en compte la
vitesse d’élocution d’un mot, un modèle mathématique est utilisé pour analyser les durées variables des phonèmes. Le modèle de Markov caché (HMM pour Hidden Markov Model) est un automate probabiliste qui permet de prendre en compte la temporalité du signal audio, grâce notamment, à la transition sur le même phonème. Chaque probabilité interne est constituée de la reconnaissance de phonème que nous avons vu précédemment. Cette combinaison entre le modèle acoustique et le modèle de prononciation est appelé le modèle acoustico-phonétique. Ce modèle permet d’affecter un HMM à chaque mot. Lors de la phase d’apprentissage, les probabilités de transition entre les états (ici ce sont les phonèmes) sont calculées puis stockées. Lors de la phase de décodage, les probabilités qui ont été pré-calculées sont utilisées.

prononciation mot

                                                                              Figure 1: HMM du mot médecin


L’avantage est que, grâce à cette liste de HMM, qui constitue le dictionnaire phonétique, nous sommes en mesure de reconnaître uniquement des mots. Il y a cependant un défaut, à savoir que les sigles et les noms propre qui n’appartiennent pas au dictionnaire phonétique ne peuvent pas être prédits.
Le
décodage acoustico-phonétique ne permet pas à lui seul de bien détecter une phrase. Pour le moment, le système est capable de prédire des suites de mots qui ne sont pas corrects. Par exemple, « vous or mais jusque car Paris » est possible alors que la phrase n’a pas de sens.
Nous avons vu comment corriger les erreurs produites lors de la détection de phonèmes en utilisant les
différents cas de prononciation possible des mots.
Dans un prochaine article, nous nous intéresserons au modèle de langage, qui permet d’ajouter de la cohérence dans les suites de mots prédites.

tester l'application Authôt

Authôt. Vous parlez. Nous écrivons.