Retrouvez-nous au GRETSI 2019 : Le Colloque du traitement du signal

Retrouvez-nous au GRETSI 2019 : Le Colloque du traitement du signal

 

Le Colloque francophone de traitement du signal et des images

Nous vous donnons rendez-vous au colloque francophone de traitement du signal et des images, le GRETSI. Cet événement aura lieu du 26 au 29 août, à l’Université de Lille. Il est dédié aux domaines du traitement du signal et des images et plus largement aux sciences de l’information et de la communication. Nous vous présentons ici ce à quoi vous pouvez vous attendre concernant ce rendez-vous lillois et tout particulièrement notre expertise du traitement de l’audio. 

GRETSI 2019 : un colloque francophone de traitement du signal et des images 

Tout d’abord, le colloque francophone GRETSI se déroule à l’Université de Lille, plus précisément au campus Pont-de-Bois, à Villeneuve d’Ascq. 

Le GRETSI est une grande conférence française du traitement du signal et des images. De grands partenaires de la recherche française, comme par exemple le CNRS ou Thalès, y participent régulièrement. Il s’agit d’un événement majeur les sujets sont variés : reconnaissance automatique de la parole, traitement de l’audio, traitement des images et de la vidéo, modélisations mathématiques…. C’est un lieu d’échanges entre spécialistes universitaires et industriels. 

L’objectif principal est de dresser un bilan de la situation et des perspectives entre acteurs du domaine. En outre, cela permet d’offrir un espace d’expression privilégié aux plus jeunes chercheurs, porteurs de progrès dans les champs scientifiques et technologiques. 

Ce colloque témoigne d’une excellence scientifique qui ne se dément pas depuis 1967. Le GRETSI réunit en moyenne 450 participants tous les deux ans et diffuse près de 300 articles édités à cette occasion. 

Nous serons présents durant ces quatre jours riches en conférences pour le traitement du signal et pour les sciences de l’information et de la communication. 

Retrouvez toutes les informations concernant la 27ème édition de cet événement juste ici

GRETSI 2019 : Sébastien et son expertise du traitement signal audio 

Sébastien, sera présent au GRETSI 2019 afin de présenter son sujet qui s’inscrit directement dans cette thématique de traitement. De même pour Authôt avec sa technologie innovante et significative de reconnaissance automatique de la parole. 

Titulaire d’un Master IARF (Intelligence Artificielle et Reconnaissance des Formes), Sébastien est un spécialiste de la reconnaissance automatique de la parole et du traitement du signal audio. 

Responsable du pôle Recherche et Développement d’Authôt, il travaille actuellement sur une nouvelle méthode pour prédire à priori la qualité de la transcription automatique de la parole. Ces nouveaux outils seront, par la suite, intégrés dans l’application Authôt. 

Analyse du bruit pour la prédiction de la qualité de la transcription automatique de la parole 

Le sujet de Sébastien pour le GRETSI 2019 concerne ses prédictions à priori dues à la qualité de la transcription actuelle, c’est-à-dire avant d’utiliser les systèmes de transcription. Le but étant d’informer au plus tôt les clients de la qualité estimée de la transcription qu’ils obtiendront. A terme, ce système sera présent dans l’application Authôt. 

Ainsi, si un client envoie un fichier difficile à transcrire pour un système automatique, ce futur système de prédiction de la qualité saura lui indiquer en amont le niveau de qualité de son audio. 

En effet, il est difficile et cela est compréhensible pour un client, d’évaluer la qualité de son fichier (bruits, réverbérations mêmes légères, musiques de fond…). C’est pour cette raison que nous leur apportons notre expertise. 

Et pour nous en interne, une prédiction de la qualité permet aussi de se faire une idée du temps nécessaire pour les corrections. Ce qui constitue donc une réelle avancée pour nous tous. 

Nous vous donnons donc rendez-vous à Lille pour la présentation majeure de Sébastien dont nous avons hâte de connaître l’issue. 

GRETSI 2019 : les enjeux de la prédiction

En fait, de nombreuses sources de variabilité peuvent venir dégrader les performances de systèmes de reconnaissance automatique de la parole (RAP), soit directement le traitement du signal audio. 

Dans cette étude, les dégradations provoquées par le bruit sont analysées afin de prédire a priori la qualité de la RAP, c’est-à-dire avant décodage. 

Notre méthode d’extraction de paramètre, nommée Sub-band Statistical Feature (S-SF), se base sur une séparation de la parole et du bruit. Une fois séparée, des statistiques sont extraites par bande fréquentielle. Pour relier ces paramètres à un système de RAP, un modèle de régression est calculé. 

L’expérimentation a été réalisée sur le corpus Wall Street Journal, bruité avec le corpus NOISEX-92 (15 types de bruit) que nous appliquons à 9 niveaux de rapport signal sur bruit. La méthode de régression proposée obtient 8,75 d’erreur de prédiction de WER sur un système de RAP entrainé avec des données non-bruitées. Lorsque 20 tours de parole sont utilisés (durée d’environ 140s), l’erreur de prédiction décroît à 5,82. Notre extraction de S-SF permet une amélioration relative de 20% par rapport à l’extraction des Sub-band Signal-to-Noise Ratio (S-SNR). 

Ainsi, afin de réduire les erreurs et d’anticiper au maximum une bonne retranscription, la qualité de l’enregistrement, du fichier audio en soi, du traitement du signal et retraité ensuite est primordial. 

Qualité de l’enregistrement et traitement du signal 

En effet, le niveau de justesse de la reconnaissance automatique et de la retranscription dépend essentiellement de la qualité de l’enregistrement. Aujourd’hui en effectuant des enregistrements numériques, nous progressons déjà beaucoup en termes de qualité. Mais vous pouvez vous-mêmes contribuer à cette qualité. Il est ainsi fortement recommandé d’enregistrer dans un lieu calme, sans bruits parasites. 

En outre, pour améliorer la qualité du signal, il est important de bien s’approcher du micro. Attention néanmoins à ne pas trop vous en approcher non plus, sous peine de saturation du signal de sortie. L’élocution s’inscrit également dans la qualité du traitement du signal audio. L’élocution ne doit pas être trop rapide, le ton de la voix doit être régulier et neutre. 

Enfin, comme vous l’aurez compris, cette prédiction peut donc être utilisée pour ignorer des portions d’audio dont la transcription automatique de la parole est de mauvaise qualité. Nous faisons ici gagner du temps à l’utilisateur en l’informant au plus tôt de la qualité de la transcription pouvant être obtenue. 

En somme, nous sommes heureux que Sébastien puisse présenter ses prédictions quant à l’avenir de la transcription et d’Authôt. Ce colloque francophone sur le traitement du signal et des images promet d’être très enrichissant pour les intervenants, comme pour l’auditoire. Si vous êtes présent au GRETSI 2019, n’hésitez pas à venir rencontrer Sébastien.