Comment exécuter Tesseract sur le fichier GIF dans Linux

Comment exécuter Tesseract sur le fichier GIF dans Linux
Tesseract est un système OCR (reconnaissance des caractères optiques), parmi les meilleurs. Le logiciel OCR est capable de comprendre le texte des images et des documents numérisés (y compris l'écriture si vous la formez). Un système OCR peut être utile pour de nombreuses tâches comme des documents numérisés à compter des mots, une transcription automatique, une conversion de caractères de l'image au texte et plus.

Linuxhint a déjà publié un tutoriel expliquant comment installer et comprendre la formation de Tesseract.

Ce tutoriel montre le processus d'installation de Tesseract dans les systèmes Debian / Ubuntu mais ne sera pas étendu sur les fonctionnalités de formation, si vous n'êtes pas familier avec ce logiciel en lisant l'article mentionné peut être une bonne introduction. Ensuite, nous vous montrerons comment traiter une image GIF avec Tesseract pour en retirer le texte.

Installation de Tesseract:

Courir:

APT INSTALLATION TESSERACT-OCR

Vous devez maintenant installer ImageMagick qui est un convertisseur d'image.

Une fois installé, nous pouvons déjà tester Tesseract, pour le tester, j'ai trouvé un GIF sous licence de réutilisation.

Voyons maintenant ce qui se passe lorsque nous exécutons Tesseract sur l'image GIF:

Tesseract 2002ny40.gif 1Result

Maintenant faire un «moins» sur 1Result.SMS

Moins 1Result.SMS

Voici l'image avec son texte:

Dans cette Tesseract, les paramètres par défaut sont assez précis, généralement pour obtenir une telle précision qu'il nécessite une formation. Essayons une autre image gratuite que j'ai trouvée sur Wiki Commons, après avoir téléchargé Run:

Tesseract actualizar_gnulinux_terminal_apt-get.gif 2result

Maintenant, vérifiez le contenu du fichier.

Moins de 2result.SMS


C'était le résultat alors que le contenu de l'image d'origine était:

Afin d'améliorer la reconnaissance des personnages, nous avons de nombreuses options et étapes à suivre qui ont été détaillées dans notre tutoriel précédent: élimination des bordures, suppression du bruit, optimisation de la taille et rotation des pages entre autres fonctions comme la culture.

Pour ce tutoriel, nous utiliserons TextCleaner, un script développé par Fred's ImageMagick Scripts.

Téléchargez le script et exécutez:

./ textcleaner -g -e stret-f 25 -o 10 -s 1
Actualizar_gnulinux_terminal_apt-get.test GIF.gif

Note: Avant d'exécuter le script, donnez-lui des autorisations d'exécution en exécutant "chmod + x textcleaner«Comme racine ou avec Sudo préfixe.

:

texte: appelle le programme

-g: Convertir l'image en niveaux de gris

-e: Enache

-F: filtrez

-s: Sharpamt, quantité d'aiguidation de pixels à appliquer au résultat.

Pour plus d'informations et des exemples d'utilisation avec TextCleaner, visitez http: // www.fmwconcepts.com / ImageMagick / TextCleaner / index.php

Comme vous le voyez, TextCleaner a changé la couleur d'arrière-plan, augmentant le contraste entre la police et l'arrière-plan.

Si nous exécutons Tesseract, le résultat sera probablement différent:

Test de Tesseract.GIF TestOutput
Moins de TestOutput

Comme vous le voyez, le résultat s'est vraiment amélioré même lorsqu'il n'est pas pleinement précis.

La commande convertir Fourni par ImageMagick nous permet d'extraire des cadres d'images GIF à traiter plus tard par Tesseract, cela est utile s'il y a du contenu extrable dans différentes cadres de l'image GIF.

La syntaxe est simple:

convertir

Le résultat sera généré en tant que nombre de fichiers en tant que trames dans le GIF, dans l'exemple fourni, les résultats seraient: sortie-0.jpg, sortie.jpg, sortie-2.jpg, etc.

Ensuite, vous pouvez les traiter avec Tesseract, en lui demandant de traiter tous les fichiers avec un wildcard enregistrant le résultat en un seul fichier en exécutant:

pour i en out- *; Do Tesseract $ I OutputResult; fait;

ImageMagick a une grande variété d'options pour optimiser les images et il n'y a pas de mode générique, pour chaque type de scénario, vous devez lire la page de Command Man de Convert.

J'espère que vous avez trouvé ce tutoriel sur Tesseract a abouti utile.