Comment convertir la voix en texte ? le rôle de la Reconnaissance Automatique de la Parole
Intelligence Artificielle et Reconnaissance Automatique de la parole
L’un des projets les plus ambitieux de l’Intelligence Artificielle, le domaine de recherche scientifique visant à modéliser l’intelligence et le raisonnement humain sur des ordinateurs, est très certainement le développement de machines capables de « converser » avec l’Homme.
Les fantasmes autour des applications potentielles de ces recherches ont été largement popularisés depuis les années 70 par exemple par des succès au cinéma tels que “2001 l’Odyssée de l’espace” ou “Star Wars”, mais aussi bien plus récemment par d’importants progrès technologiques illustrés notamment par la victoire au jeu de Go de l’ordinateur sur le meilleur joueur humain, des voitures autonomes, et des performances inédites de la reconnaissance automatique de la parole ou des visages.
Afin de permettre à terme à des machines de discuter avec nous d’une manière naturelle, nous comprenons qu’une étape fondamentale consiste à convertir le signal de parole produit par l’humain en un ensemble de symboles et de textes assimilables par la machine, et c’est tout justement la problématique de la recherche en Reconnaissance Automatique de la Parole.
Authôt est une start-up française proposant un service en ligne de transcription de la parole en texte s’appuyant sur les technologies modernes de la Reconnaissance Automatique de la Parole.
Un système de Transcription Automatique de la Parole est un ensemble de programmes informatiques permettant de convertir un énoncé oral capturé par un microphone, en un texte devant être le plus semblable possible de ce qu’un humain aurait fidèlement transcrit manuellement.
Le texte automatiquement produit peut être ensuite révisé par des annotateurs afin d’en ôter par exemple les répétitions, les faux départs, les hésitations ou les erreurs de syntaxe qui apparaissent fréquemment dans des enregistrements de parole conversationnelle spontanée. Les transcriptions peuvent également être enrichies avec diverses informations comme, entre autre la présence de musique, de silence ou de bruit.
Comment un programme informatique est-il capable de convertir la parole en texte ?
C’est justement la question que nous vous proposons de développer tout au long de cet été à travers plusieurs articles postés sur le blog d’Authôt.
Et c’est à raison d’un article toutes les deux semaines, évitant les détails trop techniques et les équations mathématiques obscures, que nous vous communiquerons quelques notions essentielles sur les principes permettant à la machine de reconnaître des sons (les phonèmes, ces unités acoustiques élémentaires de la parole), pour finalement proposer les hypothèses de phrases les plus probables compte tenu d’un énoncé de parole donné, parole que la machine n’a bien sûr jamais observée auparavant.
Merci de rester à l’écoute et dans l’attente de notre prochain article, nous vous invitons si vous le souhaitez à consulter l’article en anglais de pionniers de la reconnaissance automatique de la parole Biing-Hwang Juang et Lawrence. R. Rabiner retraçant un historique des avancées technologiques du domaine dans « Automatic Speech Recognition – A Brief History of the Technology Developement » publié en 2006 dans Encyclopedia of Language & Linguistics, c’est un article facilement trouvable via une recherche Google.
Authôt : Vous parlez. Nous écrivons.