Mono-locuteur et multi-locuteurs dans les systèmes de reconnaissance vocale
La bonne gestion d’un mono-locuteur et de multi-locuteurs dans les systèmes de reconnaissance vocale est essentielle. En fait, le secteur de la reconnaissance automatique de la parole – ou reconnaissance vocale – est en progrès constant. Ce n’est donc pas un hasard si ce marché est en pleine croissance. En effet, à l’aube de 2025, la taille du marché mondial des logiciels de reconnaissance automatique de la parole – ou automatic speech recognition (ASR) -, se chiffre en million de dollars. Nous vous parlons régulièrement sur ce blog des principes et du fonctionnement des systèmes de reconnaissance vocale, d’ASR. Cependant, il reste encore des enjeux à soulever, des cas à résoudre, notamment lorsqu’un projet audiovisuel comporte des multi-locuteurs. En effet, analyser plusieurs locuteurs, sources auditives est complexe et nécessite une certaine expertise. C’est pourquoi, nous vous présentons ici ce phénomène, nous mettons l’accent sur des situations avec un mono-locuteur, face à celles avec de multi-locuteurs.
Automatic Speech Recognition et systèmes de reconnaissance vocale
Pour commencer, rappelons brièvement ce qu’est l’automatic speech recognition – ASR ou reconnaissance automatique de la parole. Ce processus, et les systèmes qui en découlent, est une de nos spécialités chez Authôt.
Concrètement, il s’agit d’un processus qui reconnaît, numériquement parlant, de l’audio et génère une action précise à partir de ce fichier sonore. La reconnaissance vocale peut ainsi effectuer certaines actions à partir de commandes dictées oralement. Par exemple, convertir une parole en texte écrit – ce que l’on appelle le speech-to-text -, la traduire etc. Ce processus technologique s’appuie sur des algorithmes sophistiqués afin d’analyser les motifs, variations sonores et linguistiques afin de transcrire les discours en contenus textuels.
Ainsi, l’ASR s’utilise dans les systèmes de commandes vocales, les outils/logiciels de transcription automatique, les services de sous-titrage en direct. En 2024, plus que jamais, avec les progrès en nouvelles technologies et en intelligence artificielle, les chercheurs et entreprises misent sur la reconnaissance vocale. Notamment en traduction.
Avoir un mono-locuteur dans une situation conversationnelle dans un système ASR diffère grandement d’avoir à gérer des multi-locuteurs.
En linguistique, le locuteur désigne la personne qui parle, qui énonce quelque chose. Il s’oppose au destinataire, celui qui reçoit la parole. Ainsi, le mono-locuteur est celui qui conserve seul la parole dans un discours, un message. En direct ou en différé, c’est sa voix que l’on suit, à laquelle on se fie - en audio ou en vidéo.
Le mono-locuteur s’oppose au concept de multi-locuteurs qui suppose la présence de plusieurs locuteurs – c’est-à-dire de plusieurs intervenants différents, de plusieurs voix, de plusieurs pistes auditives qui s’entrecroisent.
Processus de reconnaissance vocale, automatic speech recognition
Face à cette multiplicité courante, le processus de reconnaissance vocale doit s’adapter et évoluer. Traditionnellement, la gestion d’un mono-locuteur et la gestion de multi-locuteurs correspondent à deux techniques distinctes.
De plus, le système de reconnaissance automatique de la parole comprend plusieurs sous-systèmes :
- Reconnaissance mono-locuteur ;
- Reconnaissance multi-locuteurs ;
- Stockage des données.
Un des axes majeurs du processus de la reconnaissance vocale est de travailler sur la reconnaissance des phonèmes – chaque langue vivante en ayant un nombre limité. Pour se faire, le logiciel ou système sépare d’abord les différents sons qui constituent les phonèmes à reconnaître. C’est ce que l’on nomme l’étape de filtrage, qui enlève d’abord tous les bruits parasites.
Ensuite, l’analyse s’effectue son par son, onde sonore par onde sonore. L’outil de reconnaissance vocale ou ASR sélectionne alors – grâce à ses algorithmes -, les correspondances les plus probables.
En fait, une seule personne à la fois peut utiliser les sous-systèmes de reconnaissance mono-locuteur. Le système de reconnaissance vocale propose en quelque sorte d’effectuer une « empreinte vocale » de son utilisateur. Cette étape clé consiste à garder les phonèmes en mémoire. Progressivement, l’intelligence artificielle va apprendre à reconnaître son utilisateur et les phonèmes utilisés. Ainsi, cette étape dite d’« étalonnage » permet d’optimiser la correspondance entre les sons captés et les phonèmes à reconnaître.
Les systèmes multi-locuteurs qui se destinent à plusieurs utilisateurs, progressent dans ce triple intérêt de reconnaissance automatique :
- Apprentissage ;
- Conservation en mémoire ;
- Amélioration et fluidité du processus.
Le processus est majeur face aux usages différents et aux besoins accrus en la matière.
Mono-locuteur VS multi-locuteurs : des fonctionnalités et usages différents
En termes techniques, la reconnaissance mono-locuteur est une solution qui se stocke sur des serveurs locaux. Cela nécessite d’enregistrer au préalable des échantillons de la voix de l’utilisateur – afin que le système d’ASR s’en serve comme référence.
De son côté, la reconnaissance multi-locuteurs fonctionne avec n’importe quelle voix. Néanmoins, elle requiert tout de même un connexion internet fiable afin de comparer la requête avec une base de données sauvegardée dans le cloud. La reconnaissance multi-locuteurs s’utilise aussi, beaucoup, pour des produits grand public aujourd’hui. Par exemple, on la retrouve pour les enceintes connectées créées par les GAFAM – les géants du web.
Face à une interactivité de plus en plus importante, des fonctionnalités et des usages différents, les systèmes de reconnaissance automatique de la parole s’améliorent pour améliorer les processus et s’adapter aux environnements numériques.
Applications mono-locuteur VS multi-locuteurs : applications pratiques de l’ASR
Enfin, en termes d’applications pratiques de l’ASR, des exemples d’applications mono-locuteurs VS multi-locuteurs, il faut comprendre que le processus mono-locuteur sera davantage orienté “métier”, profession libérale par exemple, alors que le multi-locuteur sera davantage orienté communication, divertissement, grand public, ou monde professionnel de manière générale.
Effectivement, pour les spécialistes, professions libérales, il semble plus avantageux d’utiliser la reconnaissance mono-locuteur qui s’adapte individuellement à l’interlocuteur, à l’utilisateur grâce à l’apprentissage approfondi – ou deep learning (lié à l’intelligence artificielle).
Par exemple, dans le monde juridique où le vocabulaire est très spécifique, la reconnaissance vocale dite mono-locuteur est plus judicieux. En effet, les juristes, avocats pourront faire évoluer le système, la reconnaissance grâce à des dictionnaires à intégrer aux technologies. Il leur suffit d’ajouter au dictionnaire de l’outil une liste de mots spécifiques à reconnaître. Une seule manipulation est nécessaire pour ajouter des termes clés. Le professionnel gagne énormément de temps car il pourra les réutiliser à sa guise, tout en réduisant ainsi une marge d’erreurs majeure en transcription.
En revanche, les systèmes de reconnaissance vocale multi-locuteurs sont parfaitement adaptés pour la transcription d’une vidéo ou d’un enregistrement audio d’un débat, d’une émission, d’interviews, d’une vidéo de présentation ou tout autre support avec plusieurs intervenants. La transcription textuelle mettra alors en évidence le changement de locuteur par un simple retour à la ligne ou bien par l’information “Speaker 1”, “Speaker 2”...
La gestion mono-locuteur et multi-locuteurs dans les systèmes de reconnaissance vocale évolue de façon précise afin de répondre à de multiples besoins d’entités très différentes – btob et btoc. Ainsi, alors que jusqu’à présent, le mono-locuteur et le multi-locuteurs étaient des processus bien distincts, ils semblent peu à peu se combiner… Ce qui améliore toujours plus la qualité en transcription ! Si vous souhaitez bénéficier de notre expertise et de nos outils de pointe en reconnaissance vocale, contactez-nous dès à présent !