Comment les phonèmes améliorent la fiabilité de la reconnaissance automatique ?

By Authôt in deep learning — 5 mars 2020

Dans le domaine de la reconnaissance vocale – ou reconnaissance automatique de la parole – les nouvelles technologies ne cessent de faire des progrès. Aujourd’hui, nous avons décidé de nous concentrer davantage sur la force des outils de reconnaissance automatique de la parole. Nous sommes partis du constat que la fiabilité du système est plus forte, plus précise en anglais qu’en français. Nous avons donc cherché à comprendre pourquoi et quel est le rôle des phonèmes dans ces résultats.

Système de reconnaissance automatique de la parole

Pour comprendre et s’intéresser davantage aux facteurs qui expliquent cette fiabilité, rappelons-en le principe. En fait, la reconnaissance automatique de la parole – RAP – est un concept large qui comprend la commande et la dictée vocale.

La reconnaissance automatique de la parole – souvent improprement appelée reconnaissance vocale – est une technique qui permet d’analyser la voix humaine captée au moyen d’un microphone. La technologie transcrit ensuite, sous la forme d’un texte ou d’un fichier exploitable sur ordinateur. Un système de reconnaissance automatique de la parole a pour but d’associer une séquence de mots à une séquence d’observations acoustiques.

Cette technologie permet d’analyser la voix humaine dans une logique d’amélioration continue, grâce à l’intelligence artificielle et des technologies comme celles du deep learning.

Ainsi, en à peine une vingtaine d’années, ces systèmes sont passés d’une reconnaissance d’un mot sur deux, à la totalité d’un discours. En effet, aujourd’hui les meilleures solutions du secteur avoisinent les 95% de fiabilité dans la retranscription – ce qui est le cas pour notre solution Authôt.

Dictée vocale

La dictée vocale – issue de la reconnaissance automatique de la parole – permet de dicter oralement un texte qui sera ensuite retranscrit automatiquement. Et alors que les premières solutions du secteur étaient lentes, imprécises et onéreuses, aujourd’hui ce secteur est en pleine ébullition. En effet, il existe aujourd’hui des solutions complètes. Non seulement elles proposent la retranscription de discours oraux, mais également d’autres fonctions comme la traduction, la création de sous-titres pour une vidéo. Les solutions actuelles de reconnaissance automatique de la parole sont très fiables. Les marges d’erreurs lors de la retranscription manuscrite sont raisonnables : 6% d’erreurs contre 3% environ pour un humain. La dictée vocale est simple d’utilisation.

Modules et fonctionnement d’un système de reconnaissance automatique de la parole

Concrètement, un système de reconnaissance automatique de la parole comporte quatre modules :

Extraction de paramètres : permet de transformer le signal de parole en une séquence d’observation acoustique. Chaque phonème prononcé est différent. Un phonème <a> prononcé par un locuteur différent ou par le même locuteur, sera toujours différent (la co-articulation, les émotions, la vitesse d’élocution, les fréquences fondamentales de la voix plus ou moins aiguë, le timbre de la voix etc…). On parle alors de variabilité intra ou extra-locuteur. De plus, le micro utilisé et l’environnement sonore (bruit, réverbération) font que le même phonème prononcé diffère en fonction de ces paramètres… Le but de l’extraction de paramètres est donc d’isoler les paramètres qui sont le plus invariants possibles, lorsque le même phonème est prononcé. Il analyse également les paramètres les plus distants possibles lorsque des phonèmes différents sont prononcés. Ceci, afin de les reconnaître de manière précise dans le modèle acoustique.
Modèle acoustique : permet de reconnaître une séquence de phonèmes grâce à une séquence d’observation acoustique (les paramètres précédemment extraits).
Modèle linguistique : permet de reconnaître les mots les plus probablement prononcés grâce aux mots voisins. On peut voir ce modèle comme un exercice de texte à trou ou le but est de trouver un mot dans une phrase.
Dictionnaire phonétique : permet de relier le modèle acoustique et le modèle linguistique. Tous les mots possibles sont inscrits avec leurs différentes écritures phonétiques afin qu’une suite de phonèmes puisse permettre de trouver le mot probablement prononcé.

Le décodage est la phase qui permet de maximiser la probabilité qu’une suite de mots (une phrase) soit prononcée grâce au signal sonore en entrée. On trouve donc la suite de mots la plus probablement prononcée d’après les modèles utilisés.

L’anglais et les phonèmes dans la reconnaissance automatique de la parole

En anglais, la reconnaissance automatique de la parole est appelée « automatic speech recognition » (ASR) ou « speech recognition ». C’est-à-dire la reconnaissance littéralement du «discours ».

En linguistique, selon le CNRTL – le Centre National des Ressources Textuelles et Lexicales – un phonème se présente comme un « élément sonore du langage articulé considéré d’un point de vue physiologique – disposition des organes vocaux – et d’un point de vue acoustique – perception auditive ». Il s’agit du plus « petit segment phonique – dépourvu de sens – permettant seul ou en combinaison avec d’autres phonèmes de constituer des signifiants ou de les distinguer entre eux ».

Le phonème est la plus petite unité distinctive de la chaîne parlée, c’est à dire la plus petite unité de son, capable de produire un changement de sens par commutation. Par exemple : lampe/rampe. Une seule lettre jointe à une autre fin de mot peut complètement changer le sens !

Selon lesdefinitions.fr, « les mots mentionnés ont des sens complètement différents, bien que la prononciation de chacun ne soit différente que pour lesdits sons (phonèmes). Le phonème appartient au cadre de la langue tandis que le son est inclus dans le domaine de la parole ». De ce fait, les phonèmes ne sont pas des sons en tant qu’entité physique, mais plutôt « une abstraction formelle ou une impression psychologique des sons de la parole ».

Les phonèmes sont essentiels dans la question de la fiabilité – de ce auquel on peut se fier, avoir confiance – des systèmes de reconnaissance automatique de la parole. En effet, ils déterminent la reconnaissance sonore, acoustique.

Les phonèmes et la distinction linguistique

En fait, les phonèmes – les sons produits par la voix sont en nombre presque infini. Selon Jakobson – un célèbre linguiste – en apprenant à parler, l’enfant « deviendra incapable d’articuler ceux qui n’appartiennent pas à son système linguistique, perdant ainsi une « aptitude naturelle » au profit d’une aptitude « culturelle » ». Les sons ainsi produits n’ont aucune valeur linguistique, c’est-à-dire n’ont pas de sens. Néanmoins, lorsqu’ils sont pris par une langue, ils acquièrent une valeur distinctive.

Comme dit précédemment, la fiabilité du système de reconnaissance de la parole en anglais est plus importante qu’en français.

Le français compte 37 phonèmes alors qu’on en dénombre 44 en anglais. Il existe 25 sons en commun, mais il y a 14 sons qui existent uniquement en anglais :

5 consonnes /θ/ /ð/ /ɫ/ /ɹ/ /h/
4 voyelles /ɪ/ /ʊ/ /ɝ/ /æ/
5 diphtongues /eɪ/ /aɪ/ /aʊ/ /ɔʊ/ /ɔɪ/

Notre première hypothèse était donc que le nombre de phonèmes supplémentaires permettait d’avoir une meilleure distinction.

Des études ont montré que la complexité de la langue anglaise génère plus d’erreurs dans les systèmes de recommandation que d’autres langues européennes tel que le français.

En réalité, les raisons de cette meilleure fiabilité des systèmes vient d’ailleurs. D’une part, le nombre de travaux de recherches concernant les systèmes de RAP sont très majoritairement faits sur l’Anglais. D’autre part, il y aussi beaucoup plus de données faites pour les systèmes de RAP en Anglais.

Enfin, comme la majeure partie des fournisseurs de système de reconnaissance automatique de la parole sont anglophones – avec d’importantes entités comme Siri, Google, Amazon, Microsoft – cela peut également expliquer cette fiabilité.

En somme, le marché de la reconnaissance automatique de la parole est en plein essor, mais reste encore naturellement plus fiable en anglais qu’en français. Il reste des pistes d’amélioration sur ce sujet et les travaux menés par notre pôle R&D laisse présager un bel avenir dans l’amélioration des systèmes de reconnaissance automatique en Français.

Pour en savoir plus sur l’application Authôt, nos services de relecture, de traduction, de sous-titrage et notre nouvel outil Authôt Live, n’hésitez pas à nous contacter !

tester l'application Authôt

Authôt. Vous parlez. Nous écrivons.