Capture et conversion de la parole en texte

By Authôt — 22 août 2016

Capture et numérisation de la parole

La transcription automatique de la parole en texte passe par 4 étapes clés avec la production de la parole, sa capture par un microphone, sa conversion analogique-numérique et l’application des algorithmes de reconnaissance automatique de la parole. Nous traiterons ici des étapes menant à convertir la voix dans un format numérique exploitable par l’ordinateur.

production parole captation signal - authot

Chaîne d’acquisition et de conversion du signal de parole

La voix se propage dans l’air sous forme d’une onde acoustique qui oscille en créant des variations de pression autour d’elle. En vibrant d’une manière spécifique pour chaque son d’un langage, la voix peut coder et transmettre la parole en direction d’un interlocuteur. L’ordinateur, lui, n’a pas d’oreilles, et manipule des paquets de données binaires composés de 0 et de 1. Le défi de la conversion numérique de la parole est alors de capturer les variations de pression caractéristiques de l’onde acoustique de la voix pour les convertir en valeurs numériques, avec un minimum de pertes et d’altérations de l’information initiale. Cette transformation est réalisée généralement en deux étapes avec d’abord une transduction de l’énergie mécanique vers un signal électrique, qui est ensuite échantillonné et transformé en séquences de mots binaires.

Le microphone

Schéma de coupe d’un micro

Un microphone est un convertisseur d’énergie fondé sur un couplage entre un système mécanique et un circuit électrique. En pratique, la membrane du microphone vibre en phase avec les variations de pressions d’air générées par l’onde acoustique de la voix, et ce mouvement ondulatoire est imprimé sur le signal électrique analogique disponible en sortie du circuit.

performant)

Tous les microphones ne captent pas les sons de la même manière, et en fonction de leur design, la membrane pourra avoir des difficultés à bouger pour certaines vitesses de vibration. Le circuit électrique peut aussi dans certains cas introduire des bruits parasites dans le signal de sortie. Dans tous les cas, le diagramme de réponse en fréquences fourni par le fabricant, vous permettra de vérifier la qualité du micro.

Veillez en particulier à ce que le microphone n’altère pas de manière significative les fréquences entre 40Hz à 8kHz, c’est à dire les fréquences du spectre de la voix.

Certains microphones sont conçus pour capturer les sons provenant d’une seule direction, et d’autres sont sensibles dans toutes les directions de l’espace. La directivité de votre microphone est à prendre en compte en particulier si vous vous enregistrez dans un environnement légèrement bruyant. En effet le microphone ne fait aucune distinction entre votre voix, sa réverbération sur les murs de la pièce, ou les bruits parasites environnants. Pour améliorer la qualité de l’enregistrement, il suffira, dans un grand nombre de cas, de s’approcher du micro afin que l’amplitude de l’onde transitant directement de la bouche au micro soit beaucoup plus importante que l’amplitude des ondes produites par les potentielles sources de bruit. Prudence toutefois, se rapprocher du microphone augmente aussi le risque de saturation du signal de sortie, ce qui entraîne une dégradation irrémédiable de l’enregistrement.

Diagramme de directivité d'un micro cardioïde

Le signal électrique en sortie du microphone n’est pas encore exploitable par l’ordinateur, mais le deviendra à la suite de sa conversion analogique-numérique.

Conversion analogique-numérique

Le convertisseur analogique-numérique est un dispositif électronique observant en entrée l’évolution de l’amplitude d’un signal électrique analogique, et qui produit en sortie une représentation de cette valeur sous forme d’un mot binaire codé sur un ou plusieurs octets, c’est à dire des paquets de bits. Ce traitement est généralement réalisé par la carte son de votre enregistreur numérique ou de votre ordinateur et les données produites sont stockées sous forme d’un fichier sur votre disque dur.

Conversion Analogique -Numérique

[caption id="attachment_3488" align="alignright" width="300"] En rouge le signal analogique, en bleu le signal bloqué

Dans une première étape, un échantillonneur-bloqueur va observer l’évolution de la tension à ses bornes d’entrée et à intervalle de temps constant, va bloquer cette valeur et la présenter sur ses bornes de sortie. Ce procédé s’appelle l’échantillonnage. En d’autres termes, c’est un prélèvement à intervalles réguliers des valeurs prises par le signal analogique d’entrée. Pour les signaux de parole, dont les fréquences peuvent atteindre 8 kHz, le théorème de Shannon impose d’échantillonner le signal d’entrée au minimum 16000 fois par seconde, c’est à dire à une fréquence d’échantillonnage de 16 kHz.

Les valeurs analogiques prélevées sont dans un second temps converties en valeurs binaires, c’est à dire en des mots logiques composés de 0 et de 1. L’opération est effectuée par un quantificateur numérique. Cette étape va inévitablement ajouter une erreur de mesure, appelée le bruit de quantification, inhérente à la compression des données analogiques vers un format dont la résolution est limitée par le nombre de bits disponibles en sortie du dispositif. Nous abordons ici des concepts avancés d’électronique numérique, alors gardons simplement en tête que pour des enregistrements de parole, une résolution de 16 bits entraîne généralement une erreur de quantification négligeable et sans conséquence sur les performances des systèmes de transcription automatique de la parole.

Compression des enregistrements au format mp3

Le format MPEG Layer 3, plus connu sous le nom de mp3 est un algorithme de compression avec perte permettant de réduire avec un facteur 10 au moins la taille de vos fichiers audio. Plusieurs études ont démontré que les performances des systèmes de reconnaissance automatique de la parole ne sont pas significativement affectées par les pertes d’information occasionnées par la compression mp3. Toutefois les fichiers avant compression doivent au minimum respecter une fréquence d’échantillonnage de 16 kHz et être codés sur 16 bits. Le débit binaire aussi appelé le bitrate et définissant la qualité du fichier compressé mp3 doit néanmoins être suffisamment élevé et atteindre au minimum 32 kilobits par seconde.

Merci de votre attention!

Comment un programme informatique est-il capable de convertir la parole en texte?

C’est le thème des articles que nous continuons de développer sur le blog de Authôt cet été.

tester l'application Authôt

Authôt : Vous parlez. Nous écrivons.