Faire une retranscription audio automatique avec les bons formats de fichiers

Retranscription automatique : Découvrez tous les formats de fichiers téléchargeables et leurs utilités


Le précédent article expliquait les objectifs de la retranscription automatique et les différents formats entrants qu’il était possible d’envoyer en transcription. En effet, fichiers audio et vidéo sont acceptés en retranscription, tant que la qualité de l’enregistrement est bonne. Chacun répondant à des objectifs différents.
Pour rappel,
tous les secteurs peuvent être concernés par le service de retranscription automatique. C’est pour cela qu’une bonne compréhension des formats de fichiers proposés est essentielle. La retranscription automatique, c’est la transformation de la Parole en Texte. Les fichiers entrants de “Parole” étant vus, nous allons ici faire un petit tour d’horizon des différents formats de fichiers sortants, c’est-à-dire, les fichiers dits “Texte” et de leurs utilisations :


Différents formats de fichiers pour différentes utilités


1) Les formats de fichiers textes .txt et .docx


Les textes en alphabet européen sont formés de caractères en nombres finis (lettres, signes de ponctuation etc.). Un fichier “text” est donc un fichier dont le contenu représente uniquement une suite de caractères. Le format de fichier .txt proposé sur l’application permet d’exporter la retranscription obtenue en texte brut. Il peut être ouvert sur bloc note par exemple. Il vous permet donc d’obtenir facilement votre écrit retranscrit.
L’éditeur de texte de l’application Authôt vous permet de mettre en forme votre texte (mettre en gras, surligner, aligner, mettre des titres, faire des paragraphes etc.). Ainsi, il vous est
possible de travailler votre texte directement en ligne et de pouvoir ensuite l’exporter en .docx. Ce format de fichier “doc”, contrairement au “text”, permet en effet de garder la mise en forme et d’être ouvert avec le logiciel Word. C’est donc un gain de temps qui est proposé grâce à ce format de fichier.
Les formats textes permettent donc d’
obtenir votre retranscription en version brute ou re-travaillée, directement sur l’éditeur en ligne.
Cela peut notamment être intéressant si vous êtes une Entreprise ou une Institution et souhaitez bénéficier de la retranscription de vos réunions (réunions CE par exemple). Les noms des différents intervenants peuvent également être ajoutés si nécessaire.


2) Les formats de fichiers sous-titres .srt .webvtt


Tout d’abord ce qu’il faut savoir c’est qu’un fichier sous-titre est composé de 2 types d’informations :

  • le texte à afficher
  • pour chaque ligne de texte, le minutage d’entrée et de sortie
      

Le format de fichier .srt peut être ouvert avec l’éditeur de texte Sublime text (screen ci-dessous), mais également avec le logiciel Aegisub afin de retravailler si nécessaire la synchronisation sous-titres/vidéo.

Screen formats de fichiers sous-titrages Authôt                                   Exemple d'un fichier exporté depuis l'application Authôt au format .srt


Le format de fichier .webvtt permet également le sous-titrage, on note 3 différences majeures avec le format .srt :

  • Un fichier WebVTT débute avec un header.
  • Le format WebVTT n'utilise pas de virgule comme séparateur entre les secondes et les millisecondes mais un point.
  • Les possibilités de formatage sont plus importantes avec le format WebVTT.
        

Les deux formats principaux de sous-titrages vous sont proposés sur l’application Authôt.


Les formats de fichiers sous-titres peuvent être intéressants si vous êtes un Grand Compte et publiez régulièrement des vidéos en formats courts sur les réseaux sociaux tels que Facebook ou YouTube (voir ici). En effet, avec l’autoplay, les vidéos se lancent automatiquement et le sous-titrage permet une meilleure visibilité de la vidéo. A noter qu’Authôt offre également : la synchronisation, l’incrustation et la traduction. Les sous-titres peuvent donc être en langue étrangère.
Les formats de fichiers sous-titres peuvent également intéresser l'Éducation avec les
MOOC’s et les Institutions Publiques afin de répondre aux normes d'accessibilité numérique (loi février 2005).
Il est cependant important de respecter
plusieurs règles si vous souhaitez réaliser un sous-titrage vidéo accessible et de qualité :

  • Une limite de 37 caractères maximum par ligne (qui peut être poussée à 40).
  • Une limite d’environ 12 à 15 caractères en fonction de la durée du sous-titre avec une tolérance de 20%.
  • Pas plus de deux lignes de sous-titre.

Un respect du code couleurs est également nécessaire pour l'accessibilité sur les chaines de télévision :

  • blanc : locuteur visible à l’écran (même partiellement) ;
  • jaune : locuteur non visible à l’écran (hors champ) ;
  • rouge : indications sonores ;
  • magenta : indications musicales et paroles des chansons ;
  • cyan : pensées d’un personnage ou d’un narrateur dans une fiction, commentaires en voix hors champ dans les reportages ou les documentaires ;
  • vert : pour indiquer l’emploi d’une langue étrangère.
      

La retranscription vous permet donc de sous-titrer votre fichier vidéo grâce aux formats .srt et .webvtt.


3) Les formats de fichiers avec timecode


Screen formats de fichiers timecodes Authôt                              Exemple d'un fichier exporté depuis l'application Authôt au format timecode

Il est possible d’obtenir votre retranscription au format .text qui permet notamment de lire les timecodes de votre fichier.
Les fichiers timecodes sont extrêmement précieux notamment pour les sociétés de
Productions Audiovisuelles qui font beaucoup de montages vidéos. La retranscription automatique et l’export en .text leur fait gagner un temps considérable. Ils disposent ainsi de scripts de leurs rushs.


4) Les formats de fichiers .html


Screen formats de fichiers html Authôt                         Exemple d'un fichier exporté depuis l'application Authôt au format .html

Le format html est le format de données conçu pour représenter les pages web. C’est un langage de balisage permettant d’écrire de l’hypertexte. Ce format, disponible sur l’application Authôt permet d’ajouter la lecture numérique synchronisée pour vos audios ou vidéos. A ce titre, nous vous invitons à lire notre article dédié (ici) qui vous donnera une bonne idée de l’utilisation à faire des formats de fichiers .html.


5) Les formats fichiers .xml


Le format .xml ou « langage de balisage extensible » en français, est dit « extensible » car il permet de définir différents espaces de noms, c'est-à-dire des langages avec chacun leur vocabulaire et leur grammaire, comme XHTML, XSLT, RSS, SVG etc. Ainsi, à l’inverse du langage html, le xml permet de créer ses propres balises, elles sont entièrement personnalisables. Le langage xml est donc beaucoup moins rigide. Télécharger en format .xml vous permet donc de trier et formater facilement vos données.
Par exemple avec Authôt, le tri de vos données peut se faire par le biais des balises "mots" qui contiennent un attribut “start” et un attribut “end". Grâce au XML, vous pouvez ainsi
créer un affichage qui vous est propre, créer des sous-titres etc.


6) Les formats de fichiers .sjson


Vis-à-vis de JavaScript, un document JSON représente un objet, d’où son nom. Il est donc potentiellement plus facile à interpréter qu’un XML qui imposera le recours à des techniques, souvent plus lourdes qu’un accès direct.

Screen formats de fichiers sjson Authôt                           Exemple d'un fichier exporté depuis l'application Authôt au format .sjson

Le sjson apparaît un peu comme un tableau divisé en trois parties : les “start”, les “end”, et le “text”. A l’inverse du html par exemple les “start” et “end” sont dans le texte pour permettre la synchronisation.
Le sjson répond donc à des demandes très spécifiques, mais reste disponible sur notre application.

                                  Capture d'écran de l'application Authôt


Authôt est une start-up française spécialisée dans la Retranscription Automatique. Elle propose une application en ligne permettant de retranscrire des fichiers audio ou vidéo en texte.
Ce sont donc de nombreux formats de fichiers différents qui sont proposés sur app.authôt.com qui permettent de répondre aux besoins spécifiques de chacun !
Vous souhaitez un format qui n’est pas indiqué sur notre application ? N’hésitez pas à nous contacter 🙂

tester l'application Authôt


Authôt. Vous parlez. Nous écrivons.

Sources

Vimeo
Web-pour-tous
Informations.handicap
Blog Authôt