Faire une retranscription audio automatique avec les bons formats de fichiers
Retranscription automatique : Découvrez tous les formats de fichiers téléchargeables et leurs utilités
Le précédent article expliquait les objectifs de la retranscription automatique et les différents formats entrants qu’il était possible d’envoyer en transcription. En effet, fichiers audio et vidéo sont acceptés en retranscription, tant que la qualité de l’enregistrement est bonne. Chacun répondant à des objectifs différents.
Pour rappel, tous les secteurs peuvent être concernés par le service de retranscription automatique. C’est pour cela qu’une bonne compréhension des formats de fichiers proposés est essentielle. La retranscription automatique, c’est la transformation de la Parole en Texte. Les fichiers entrants de “Parole” étant vus, nous allons ici faire un petit tour d’horizon des différents formats de fichiers sortants, c’est-à-dire, les fichiers dits “Texte” et de leurs utilisations :
Différents formats de fichiers pour différentes utilités
Différents formats de fichiers pour différentes utilités
1) Les formats de fichiers textes .txt et .docx
1) Les formats de fichiers textes .txt et .docx
Les textes en alphabet européen sont formés de caractères en nombres finis (lettres, signes de ponctuation etc.). Un fichier “text” est donc un fichier dont le contenu représente uniquement une suite de caractères. Le format de fichier .txt proposé sur l’application permet d’exporter la retranscription obtenue en texte brut. Il peut être ouvert sur bloc note par exemple. Il vous permet donc d’obtenir facilement votre écrit retranscrit.
L’éditeur de texte de l’application Authôt vous permet de mettre en forme votre texte (mettre en gras, surligner, aligner, mettre des titres, faire des paragraphes etc.). Ainsi, il vous est possible de travailler votre texte directement en ligne et de pouvoir ensuite l’exporter en .docx. Ce format de fichier “doc”, contrairement au “text”, permet en effet de garder la mise en forme et d’être ouvert avec le logiciel Word. C’est donc un gain de temps qui est proposé grâce à ce format de fichier.
Les formats textes permettent donc d’obtenir votre retranscription en version brute ou re-travaillée, directement sur l’éditeur en ligne.
Cela peut notamment être intéressant si vous êtes une Entreprise ou une Institution et souhaitez bénéficier de la retranscription de vos réunions (réunions CE par exemple). Les noms des différents intervenants peuvent également être ajoutés si nécessaire.
2) Les formats de fichiers sous-titres .srt .webvtt
2) Les formats de fichiers sous-titres .srt .webvtt
Tout d’abord ce qu’il faut savoir c’est qu’un fichier sous-titre est composé de 2 types d’informations :
- le texte à afficher
-
pour chaque ligne de texte, le minutage d’entrée et de sortie
Le format de fichier .webvtt permet également le sous-titrage, on note 3 différences majeures avec le format .srt :
- Un fichier WebVTT débute avec un header.
- Le format WebVTT n'utilise pas de virgule comme séparateur entre les secondes et les millisecondes mais un point.
-
Les possibilités de formatage sont plus importantes avec le format WebVTT.
Les formats de fichiers sous-titres peuvent être intéressants si vous êtes un Grand Compte et publiez régulièrement des vidéos en formats courts sur les réseaux sociaux tels que Facebook ou YouTube (voir ici). En effet, avec l’autoplay, les vidéos se lancent automatiquement et le sous-titrage permet une meilleure visibilité de la vidéo. A noter qu’Authôt offre également : la synchronisation, l’incrustation et la traduction. Les sous-titres peuvent donc être en langue étrangère.
Les formats de fichiers sous-titres peuvent également intéresser l'Éducation avec les MOOC’s et les Institutions Publiques afin de répondre aux normes d'accessibilité numérique (loi février 2005).
Il est cependant important de respecter plusieurs règles si vous souhaitez réaliser un sous-titrage vidéo accessible et de qualité :
- Une limite de 37 caractères maximum par ligne (qui peut être poussée à 40).
- Une limite d’environ 12 à 15 caractères en fonction de la durée du sous-titre avec une tolérance de 20%.
-
Pas plus de deux lignes de sous-titre.
- blanc : locuteur visible à l’écran (même partiellement) ;
- jaune : locuteur non visible à l’écran (hors champ) ;
- rouge : indications sonores ;
- magenta : indications musicales et paroles des chansons ;
- cyan : pensées d’un personnage ou d’un narrateur dans une fiction, commentaires en voix hors champ dans les reportages ou les documentaires ;
-
vert : pour indiquer l’emploi d’une langue étrangère.
3) Les formats de fichiers avec timecode
3) Les formats de fichiers avec timecode
Exemple d'un fichier exporté depuis l'application Authôt au format timecode
Les fichiers timecodes sont extrêmement précieux notamment pour les sociétés de Productions Audiovisuelles qui font beaucoup de montages vidéos. La retranscription automatique et l’export en .text leur fait gagner un temps considérable. Ils disposent ainsi de scripts de leurs rushs.
4) Les formats de fichiers .html
4) Les formats de fichiers .html
Exemple d'un fichier exporté depuis l'application Authôt au format .html
5) Les formats fichiers .xml
5) Les formats fichiers .xml
Le format .xml ou « langage de balisage extensible » en français, est dit « extensible » car il permet de définir différents espaces de noms, c'est-à-dire des langages avec chacun leur vocabulaire et leur grammaire, comme XHTML, XSLT, RSS, SVG etc. Ainsi, à l’inverse du langage html, le xml permet de créer ses propres balises, elles sont entièrement personnalisables. Le langage xml est donc beaucoup moins rigide. Télécharger en format .xml vous permet donc de trier et formater facilement vos données.
Par exemple avec Authôt, le tri de vos données peut se faire par le biais des balises "mots" qui contiennent un attribut “start” et un attribut “end". Grâce au XML, vous pouvez ainsi créer un affichage qui vous est propre, créer des sous-titres etc.
6) Les formats de fichiers .sjson
6) Les formats de fichiers .sjson
Vis-à-vis de JavaScript, un document JSON représente un objet, d’où son nom. Il est donc potentiellement plus facile à interpréter qu’un XML qui imposera le recours à des techniques, souvent plus lourdes qu’un accès direct.
Exemple d'un fichier exporté depuis l'application Authôt au format .sjson
Le sjson répond donc à des demandes très spécifiques, mais reste disponible sur notre application.
Capture d'écran de l'application Authôt
Authôt est une start-up française spécialisée dans la Retranscription Automatique. Elle propose une application en ligne permettant de retranscrire des fichiers audio ou vidéo en texte.
Ce sont donc de nombreux formats de fichiers différents qui sont proposés sur app.authôt.com qui permettent de répondre aux besoins spécifiques de chacun !
Vous souhaitez un format qui n’est pas indiqué sur notre application ? N’hésitez pas à nous contacter 🙂
Authôt. Vous parlez. Nous écrivons.
Sources :
Vimeo
Web-pour-tous
Informations.handicap
Blog Authôt