Nouveau système de reconnaissance automatique de la parole : Authôt Whisper
Notre nouveau système de reconnaissance automatique de la parole, Authôt Whisper, s’inspire des évolutions actuelles en intelligence artificielle et des travaux d’OpenAI - notamment de Whisper. Concrètement, il y a eu un grand bouleversement dans le monde de l’IA avec la sortie en novembre 2022 de ChatGPT et sa technologie utilisant les transformers. Les Transformers sont une classe d'architectures de réseaux neuronaux profonds qui ont révolutionné le domaine du traitement du langage naturel (NLP). Appliqués au SRAP - systèmes de reconnaissance automatique de la parole - OpenAI crée Whisper. Dès début 2023, notre pôle Recherche et Développement s’est ainsi penché sur les travaux open source (libres) d’OpenAI, les a intégrés pour optimiser les performances de Whisper ! En quoi Whisper est une technologie révolutionnaire en la matière et comment cela nous a t’il permis de mettre en ligne notre propre système de reconnaissance automatique plus performant ? Nous vous répondons.
Reconnaissance automatique de la parole, oralité et intelligence artificielle
Pour commencer, il faut comprendre que l’on assiste à une véritable montée en puissance de la reconnaissance automatique de la parole ces dernières années. Dans une ère où les outils et moyens de communication se multiplient, communiquer s’effectue de plus en plus en vidéo, en audio, soit oralement. De ce fait, la technologie et les systèmes de reconnaissance automatique de la parole – ou SRAP -, sont très importants, car ils vont venir accélérer l’accès, la diffusion et le partage de contenus, d’informations, dans tous les domaines.
La reconnaissance automatique de la parole – ou reconnaissance vocale -, est étroitement liée à l’intelligence artificielle. De ce fait, il est logique, en tant qu’experts « Speech to text » nous nous intéressions aux travaux qui se font dans ce secteur. Parmi les acteurs clés du domaine, on retrouve OpenAI, le créateur de ChatGPT et de Whisper.
Whisper : le système de reconnaissance automatique de la parole d’OpenAI
Ainsi, qu’est-ce que Whisper ?
Comme l’exprime OpenAI, Whisper est un « système de reconnaissance automatique de la parole formé sur 680 000 heures de données supervisées multilingues et multi tâches collectées sur le web ». Grâce à l’utilisation d’un ensemble de données vaste et très diversifié, Whisper améliore les performances en faisant face à de nombreux défis techniques. Par exemple, la résistance aux bruits de fond, aux accents et au langage technique. De plus, cela facilite la transcription dans plusieurs langues et la traduction de ces langues vers l’anglais.
OpenAI est transparent, l’accès aux modèles et au code d’inférence est en libre accès - ce qui a pour objectif de servir de base à la création d’autres applications, plateformes, systèmes et donc de développer des recherches solides autour du traitement de la parole et la fiabilité de la reconnaissance automatique. L’architecture de Whisper est une approche simple, end-to-end (en une seule étape), mise en œuvre sous la forme d’un transformateur encodeur-décodeur. L’audio d’entrée se divise en morceaux de 30 secondes, qui est converti en MFCC (un spectrogramme qui simule les approximations de l'oreille humaine pour limiter le nombre de paramètres). Le signal est ensuite compressé grâce à un encodeur qui conserve uniquement les informations acoustiques utiles à la détection de phonème (les informations comme le locuteur ou le bruit de fond sont filtrés). Puis, la partie décodeur à la tâche de transformer le signal précédemment encodé en texte.
Comme Whisper a été entraîné sur un ensemble de données vaste, qu’il n’a pas été adapté à un ensemble spécifique, il ne bat pas les modèles qui se spécialisent dans la performance « LibriSpeech » - une référence compétitive célèbre dans le domaine de la reconnaissance vocale.
Cependant, Whisper est beaucoup plus robuste et commet de manière générale 50% d’erreurs en moins que les autres modèles existants. Le fait que tout soit en open source permet de créer nos propres systèmes grâce au "fine tuning" (ré-entrainer Whisper avec de nouvelles données d’apprentissage pour l'adapter et améliorer ces performances).
Notre propre système de reconnaissance automatique de la parole
Après plusieurs mois nécessaires de recherches et développements, nous avons mis en ligne notre nouveau système de reconnaissance automatique de la parole, Authôt Whisper ! En effet, en partant de l’intégration des travaux de recherche open source, de la technologie Whisper et de nos données, nous avons développé, construit notre propre système de reconnaissance. Pour ce système, nous avons effectué certains choix technologiques et déroulé notre propre méthodologie de développement. L’expertise, la « surcouche » Authôt, d’un point de vue technique, concerne l’implication des locuteurs, le nettoyage des bandes audio, l’ajout d’un filtre pour les hallucinations, les bandes temporelles TC aux mots – pour une meilleure optimisation.
En fait, ce nouveau système est un réseau de neurones d’architecture Transformer qui fonctionne en encodeur-décodeur. Fonctionner en « encodeur-décodeur » signifie que le signal audio est encodé sous un ensemble de paramètres plus petits et pertinents, puis il est décodé sous forme de texte. Transformer – prononcé transformeur – implique que le réseau de neurones fonctionne séquence par séquence via des matrices d’attention pour gérer le contexte – la mémoire – de ce que l’on décode. La reconnaissance est plus performante, plus robuste au bruit et à la réverbération. Ce n’est pas un hasard si aujourd’hui, toutes les nouvelles IA se basent sur ce système de Transformer…
Nos chercheurs et experts ont testé notre nouveau système de reconnaissance automatique de la parole sur des heures de contenus audio et vidéo. Notre corpus de tests s’est basé sur des fichiers non académiques, des fichiers concrets de nos utilisateurs. Nous avons veillé à sélectionner des fichiers plus ou moins difficiles, à travailler sur un panel varié, afin que cela soit le plus représentatif possible des cas d’usages de nos clients. Ensuite, le système Authôt a bien sûr été, également, testé en interne par nos différentes équipes : opérationnelles, techniques et commerciales.
Whisper et Authôt pour de la reconnaissance automatique de parole
En termes de performance, de précision, Whisper est très puissant et constitue un excellent modèle. Sa faiblesse principale étant d’être le plus “riche” en anglais…
Au vue de notre activité, de nos clients et demandes nous avons choisi de développer Authôt Whisper en premier sur la langue française. C’est donc un vrai atout pour tout contenu francophone. En plus de la "surcouche Authôt", notre système bénéficie des connaissances de centaines de milliers d’heures de contenus corrigés en français.
Le nouveau système de reconnaissance automatique de la parole Authôt approuvé après les tests, apporte de nombreux bénéfices par rapport à notre ancien système :
- Gain de précision de décodage – tout particulièrement dans les conditions bruitées, ou avec musique de fond ;
- Amélioration de la qualité de transcription – fiabilité +5 à 10%, par rapport au précédent système sur les données réelles client ;
- Meilleur alignement audio-texte – pour un sous-titrage plus performant ;
- Accessibilité internationale – avec une centaine de langues vivantes disponibles en transcription ;
- Fiabilité plus élevée avec une vitesse de traitement équivalente.
Concrètement les performances attendues :
- 99% de taux de fiabilité sur des données propres et sélectionnés
- 95,02% sur les données FLEURS
Comme notre précédent, ce nouveau système – et toutes les données associées – est hébergé sur des serveurs en France. Disponible en avant-première et déployé aux comptes de nos clients professionnels au fur et à mesure, nous avons des retours très positifs qui confirment les avantages d’un tel système.
En somme, face à l’importance croissante de la reconnaissance automatique de la parole dans notre société, les systèmes comme Whisper et notre propre nouveau système de reconnaissance automatique de la parole apportent des perspectives majeures pour une communication orale toujours plus rapide, pertinente et accessible.