SoundFilter : extraction de sons à partir de sources audio
Nous vous parlons régulièrement des progrès en intelligence artificielle sur notre blog. Par exemple, en écriture, en traduction ou encore dans l’identification vocale. Aujourd’hui, nous allons vous présenter SoundFilter. C’est une intelligence artificielle de Google qui est capable d’extraire n’importe quel son à partir d’un fichier audio.
L’intelligence artificielle dans l’audiovisuel et le web
Tout d’abord, rappelons brièvement ce qu’est une IA.
En fait, selon futura-sciences.com, l’intelligence artificielle – ou IA – consiste à « mettre en œuvre un certain nombre de techniques visant à permettre aux machines d’imiter une forme d’intelligence réelle » … Ce qui explique qu’elle s’applique à un nombre de domaines différents de plus en plus conséquents !
Aujourd’hui, toutes les grandes entreprises en informatique, dans le milieu du web, se concentrent sur les défis, les problématiques et les opportunités qui se créent autour de l’intelligence artificielle. Google, Apple, IBM, Microsoft… Tous ont leurs serveurs et réseaux de neurones artificiels qui traitent de lourdes bases de données.
De ce fait, comment l’intelligence artificielle s’applique-t-elle dans le milieu audiovisuel et plus particulièrement sur les fichiers audio ?
Dans cette thématique, il faut également comprendre et prendre en compte les spécificités de l’audio. Selon Wikipédia, le mot audio désigne « ce qui est relatif à l’audition et tout ce qui concerne le domaine des sons électro-acoustiques audibles : les sources audio, les cours, les livres audio ».
L’audio ce sont plus largement les contenus et supports que l’on écoute, une sensation auditive qui est engendrée par une onde acoustique. L’intelligence artificielle va donc interférer, jouer un rôle dans le traitement de ces sons, de ces fichiers audio. Et ce, pour différents usages.
SoundFilter : l’intelligence artificielle de Google qui extrait les sons
Face aux progrès des intelligences artificielles, Google développe des outils qui s’appuient sur le machine learning. Brièvement, le machine learning se présente comme une technologie issue de l’intelligence artificielle et qui permet aux ordinateurs d’apprendre sans avoir été programmés clairement dans ce sens.
Ainsi, Siècledigital.fr, nous apprend que Google a récemment mis au point SoundFilter. SoundFilter est un système reposant sur le machine learning et qui est capable d’extraire n’importe quel son à partir d’un audio. Même pour un enregistrement, un fichier audio brouillé, de mauvaise qualité, bruyant, parasité auditivement parlant.
En plus, le dispositif SoundFiltrer n’a besoin que d’un très court échantillon sonore pour parvenir à son but !
Le fonctionnement de SoundFilter
Le processus de recherche et de fonctionnement de SoundFilter est extrait d’un article scientifique intitulé « Filtrage audio conditionnel en une fois de sons arbitraires ». En fait, si le système SoundFilter n’a besoin que d’un court échantillon audio, c’est parce qu’il effectue un mélange, mixe, compare différentes sources.
Concrètement, il reçoit le mélange audio à filtrer avec un exemple du type de son qu’il doit extraire in fine. Et c’est ce mélange qui ne nécessite qu’une seule étape.
En effet, SoundFilter s’entraîne grâce aux échantillons audio que Google lui fournit. Il exploite donc ensuite tout un réseau neuronal artificiel et traite onde par onde.
Le média spécialiste VentureBeat explique que le fonctionnement repose sur un calcul complexe par l’intelligence artificielle. L’intégration sonore correspondante est calculée par un codeur.
Un générateur conditionné prend lui le mélange audio et l’intégration conditionnée comme entrée. Il produit ensuite la sortie dite « filtrée ».
« Le système suppose que la collection audio originale se compose de nombreux clips de quelques secondes qui contiennent le même type de son pendant toute la durée » … Ce qui est déjà un travail considérable en termes de constitution de base de données et de Big Data !
SoundFilter : la nouveauté intelligente de Google en traitements sonores
Voici les résultats actuels des chercheurs autour des extractions possibles avec SoundFilter :
- Voix de plusieurs locuteurs ;
- Différents sons dans des mélanges de sons ;
- L’extraction de locuteurs et de sons individuels dans des mélanges de deux types de contenus.
Ces résultats sont intéressants car ils montrent bien déjà qu’une voix humaine est différente de son d’un objet, d’un bruitage ou encore d’une musique.
En outre, les voix humaines sont infiniment différentes entre elles.
Les mélanges sont également infinis. C’est pourquoi, SoundFilter ne peut qu’apprendre et traiter les sons et les sources audio par expérience.
Ce que cela nous apprend et avenir de cette technologie
On découvre plusieurs aspects intéressants concernant l’utilisation de l’intelligence artificielle pour des systèmes tels que SoundFilter.
Et les chercheurs sont loin de vouloir s’arrêter là dans son développement ! En effet, en étant capable d’extraire – et donc aussi d’éliminer tous types de sons -, SoundFilter pourrait s’appliquer à d’autres secteurs et être le pilier de nouvelles technologies.
Par exemple, les chercheurs expliquent ainsi que leur travail pourrait être utilisé pour créer des classificateurs d’événements audio, sonores.
Audio et retranscription
Chez Authôt nous accordons une grande importance aux développements des technologies sonores. C’est très important car la qualité du fichier audio d’origine influe en grande partie sur le rendu final.
De ce fait, en améliorant encore et toujours la qualité audio, notre efficacité est renforcée !
Concernant SoundFilter c’est le cas. Ce système ne fait pas que extraire. Ce qui est intéressant c’est qu’il filtre avant tout ! Et ce, pour n’importe quel son !
Nous espérons que cet article sur SoundFilter, le système intelligent de Google qui est capable d’extraire n’importe quel son en une fois à partir d’une source audio vous aura plu. Les nouveautés et développements autour de l’intelligence artificielle, des nouvelles technologies en audiovisuel ne cessent de croître et nous les surveillons de près !
Authôt. Vous parlez. Nous écrivons.