Technologie et système de reconnaissance automatique de la parole
Système de Reconnaissance Automatique de la Parole
Nous concluons ici la série d’articles présentant les composants fondamentaux de la chaîne de transcription automatique la parole en texte. Après avoir parlé de la production de la parole, de sa capture et de sa numérisation, nous abordons les systèmes de reconnaissance automatique de la parole.
La reconnaissance automatique de la parole se définit comme l’ensemble des méthodes informatiques permettant de convertir un enregistrement de parole en texte. La dictée vocale, commercialisée dès les années 80, est sans aucun doute l’application la plus populaire de la reconnaissance automatique de la parole. Les récents progrès du domaine offrent aujourd’hui l’opportunité d’exploiter ces technologies dans une large variété d’applications telles que :
-
le sous-titrage et la traduction automatique de vidéo,
-
l’indexation et l’extraction d’information dans les documents audiovisuels,
-
ou encore les interfaces vocales homme-machine.
Le marché potentiel que constituent le milliard d’utilisateurs d’objets connectés à travers le monde, positionne la reconnaissance automatique de la parole parmi les technologies les plus prometteuses du moment.
Les progrès du domaine au fil du temps
L’innovation en reconnaissance automatique de la parole repose sur plus de 50 ans de recherche scientifique. Les premiers systèmes datent des années 60. Il s’agit de systèmes de reconnaissance de mots isolés, où chaque terme doit être prononcé séparément. Les vocabulaires étaient alors très limités, contenant dans certains cas les nombres de 0 à 9, ou quelques voyelles dans d’autres réalisations.
C’est à la fin des années 80, grâce à un programme d’investissement financier du département de la défense américaine, que seront développés les premiers systèmes modernes de reconnaissance automatique de parole continue. L’intérêt pour ce domaine de recherche s’intensifie, menant à des innovations majeures telles que :
-
l’augmentation des vocabulaires des systèmes, qui passent d’un millier de mots à plus de 100,000 termes reconnus ;
-
le traitement d’énoncés de parole de nature de plus en plus difficile. D’abord limités à des énoncés de parole préparée et lue par un seul locuteur, les systèmes évoluent vers la parole conversationnelle entre plusieurs locuteurs ;
-
Mais encore le développement de systèmes indépendants du locuteur, avec un gain de performance important obtenu récemment grâce aux méthodes de deep learning et aux réseaux de neurones profonds ;
-
et à la création de technologies de plus en plus robustes aux enregistrements dégradés. La reconnaissance automatique de la parole bruitée réverbérante est aujourd’hui une thématique majeure de la communauté de recherche du domaine.
Architecture du Système de Reconnaissance Automatique de la Parole
Un système de reconnaissance automatique de la parole comporte typiquement 5 modules :
-
le prétraitement acoustique, qui va identifier les zones de parole dans l’enregistrement à transcrire et en extraire des séquences de paramètres acoustiques.
-
le modèle de prononciation, qui associe les mots connus par le système à leurs représentations phonétiques.
-
Le modèle acoustique, servant à prédire les phonèmes les plus probablement prononcés dans un énoncé audio.
-
Le modèle linguistique, servant à prédire la séquence de mots la plus probable pour un texte donné.
-
Et enfin le décodeur, qui va combiner les prédictions des modèles acoustiques et linguistiques pour proposer la transcription en texte la plus probable pour un énoncé de parole donné.
Architecture type d’un système de reconnaissance automatique de la parole
Les performances des systèmes de reconnaissance automatique de la parole sont fortement liées aux méthodes et aux données utilisées pour l’apprentissage des modèles acoustiques et linguistiques. Durant cette phase d’entraînement, la puissance de calcul de serveurs informatiques est exploitée pour analyser une très grande quantité d’enregistrements audio et les transcriptions de référence correspondantes.
La puissance des algorithmes d’apprentissage automatique utilisés en reconnaissance automatique de la parole réside dans leur capacité à généraliser les exemples de la base d’apprentissage, afin de transcrire des énoncés inédits jamais observés auparavant.
Malgré ces progrès, il n’existe aujourd’hui pas de système de reconnaissance automatique de la parole universel, c’est à dire obtenant les mêmes performances quelque soit le fichier transcrit. Si les systèmes automatiques peuvent atteindre une précision comparable aux annotateurs humains, ces performances dépendent fortement des enregistrements ainsi que de la qualité de la phase d’apprentissage au regard de la tâche ciblée.
Les modèles acoustiques et linguistiques peuvent dans la majorité des cas être adaptés pour de nouveaux domaines d’application notamment grâce à l’intégration durant l’apprentissage, de connaissances a priori liées par exemple à la qualité de l’enregistrement, au type de parole concernée, aux accents ou au champ lexical utilisés.
Merci de votre attention !
Comment un programme informatique est-il capable de convertir la parole en texte ?
C’était le thème des articles que nous avons développés pour vous tout au long de l’été sur le blog de Authôt, et nous vous disons à très bientôt sur Authot.com.
Authôt : Vous parlez. Nous écrivons.