La reconnaissance de texte grâce à la technologie OCR
La reconnaissance de texte sur vos images ou vidéos grâce à la technologie OCR
L’acronyme OCR (en anglais : Optical Character Recognition) signifie reconnaissance optique de caractères ou reconnaissance de texte. C’est une technologie qui permet de convertir différents types de documents tels que des documents papiers scannés, des fichiers PDF ou des photos numériques, vers des formats modifiables et exploitables.
Principe :
Un système OCR part de l'image numérique réalisée par un scanner optique d'une page (document imprimé, feuillet dactylographié, etc. ), ou un appareil photo numérique, et produit en sortie un fichier texte en divers formats (texte simple, formats de traitements de texte, XML. . . ). Il fonctionne également à partir de vidéos, et ce selon le même principe.
Evolution :
La reconnaissance de texte dans une image ou une vidéo est un domaine actif de recherche pour la science informatique depuis la fin des années 1950. Au début, la problématique paraissait simple, mais il apparut, par la suite, qu'il s'agissait d'un sujet beaucoup plus complexe à traiter.
La première machine d'OCR fut créée par Gustav Tauschek, un ingénieur allemand, en 1929. Elle contenait un détecteur photosensible qui pointait une lumière sur un mot lorsqu’il correspondait à un gabarit contenu dans sa mémoire.
Les premiers systèmes nécessitaient un « apprentissage » pour lire une police de caractères donnée. Mais aujourd'hui, il est courant de trouver des systèmes « intelligents » qui sont capables de reconnaître la plupart des polices avec un haut niveau de précision.
Depuis sa première utilisation la technologie de l’OCR continue d’évoluer. Désormais, beaucoup de logiciels de reconnaissance optique de caractère existent et sont utilisés dans le monde professionnel.
Associer la reconnaissance de texte dans une vidéo à la reconnaissance vocale d’Authôt, est-ce une idée réalisable ?!
Authôt : Vous parlez. Nous écrivons.