Capture et conversion de la parole en texte
Capture et numérisation de la parole
La transcription automatique de la parole en texte passe par 4 étapes clés avec la production de la parole, sa capture par un microphone, sa conversion analogique-numérique et l’application des algorithmes de reconnaissance automatique de la parole. Nous traiterons ici des étapes menant à convertir la voix dans un format numérique exploitable par l’ordinateur.
Chaîne d’acquisition et de conversion du signal de parole
La voix se propage dans l’air sous forme d’une onde acoustique qui oscille en créant des variations de pression autour d’elle. En vibrant d’une manière spécifique pour chaque son d’un langage, la voix peut coder et transmettre la parole en direction d’un interlocuteur. L’ordinateur, lui, n’a pas d’oreilles, et manipule des paquets de données binaires composés de 0 et de 1. Le défi de la conversion numérique de la parole est alors de capturer les variations de pression caractéristiques de l’onde acoustique de la voix pour les convertir en valeurs numériques, avec un minimum de pertes et d’altérations de l’information initiale. Cette transformation est réalisée généralement en deux étapes avec d’abord une transduction de l’énergie mécanique vers un signal électrique, qui est ensuite échantillonné et transformé en séquences de mots binaires.
Le microphone
Un microphone est un convertisseur d’énergie fondé sur un couplage entre un système mécanique et un circuit électrique. En pratique, la membrane du microphone vibre en phase avec les variations de pressions d’air générées par l’onde acoustique de la voix, et ce mouvement ondulatoire est imprimé sur le signal électrique analogique disponible en sortie du circuit.
Dans une première étape, un échantillonneur-bloqueur va observer l’évolution de la tension à ses bornes d’entrée et à intervalle de temps constant, va bloquer cette valeur et la présenter sur ses bornes de sortie. Ce procédé s’appelle l’échantillonnage. En d’autres termes, c’est un prélèvement à intervalles réguliers des valeurs prises par le signal analogique d’entrée. Pour les signaux de parole, dont les fréquences peuvent atteindre 8 kHz, le théorème de Shannon impose d’échantillonner le signal d’entrée au minimum 16000 fois par seconde, c’est à dire à une fréquence d’échantillonnage de 16 kHz.
Les valeurs analogiques prélevées sont dans un second temps converties en valeurs binaires, c’est à dire en des mots logiques composés de 0 et de 1. L’opération est effectuée par un quantificateur numérique. Cette étape va inévitablement ajouter une erreur de mesure, appelée le bruit de quantification, inhérente à la compression des données analogiques vers un format dont la résolution est limitée par le nombre de bits disponibles en sortie du dispositif. Nous abordons ici des concepts avancés d’électronique numérique, alors gardons simplement en tête que pour des enregistrements de parole, une résolution de 16 bits entraîne généralement une erreur de quantification négligeable et sans conséquence sur les performances des systèmes de transcription automatique de la parole.
Compression des enregistrements au format mp3
Le format MPEG Layer 3, plus connu sous le nom de mp3 est un algorithme de compression avec perte permettant de réduire avec un facteur 10 au moins la taille de vos fichiers audio. Plusieurs études ont démontré que les performances des systèmes de reconnaissance automatique de la parole ne sont pas significativement affectées par les pertes d’information occasionnées par la compression mp3. Toutefois les fichiers avant compression doivent au minimum respecter une fréquence d’échantillonnage de 16 kHz et être codés sur 16 bits. Le débit binaire aussi appelé le bitrate et définissant la qualité du fichier compressé mp3 doit néanmoins être suffisamment élevé et atteindre au minimum 32 kilobits par seconde.
Merci de votre attention!
Comment un programme informatique est-il capable de convertir la parole en texte?
C’est le thème des articles que nous continuons de développer sur le blog de Authôt cet été.
Authôt : Vous parlez. Nous écrivons.