Installez Tesseract OCR sur Linux

Ines Dubois

Ce tutoriel explique comment installer Tesseract sur Linux en utilisant à la fois le Manager de Debian Apt Packages et les référentiels GIT pour d'autres distributions Linux.

Tesseract est la solution OCR libre et probablement sur le marché. Depuis 2006, il est parrainé par Google; Auparavant, il a été développé par Hewlett Packard en C et C ++ entre 1985 et 1998. Le système peut identifier même l'écriture manuscrite; Il peut apprendre, augmenter sa précision et est parmi les plus développés et complets sur le marché.

S'il est correctement formé, il peut battre des concurrents commerciaux comme Abby; Si vous recherchez une solution sérieuse pour l'OCR, Tesseract est le plus précis, mais ne vous attendez pas à des solutions massives: il utilise un noyau par processus, ce qui signifie qu'un processeur à 8 noyau (hyperthreading accepté) sera en mesure de traiter 8 ou 16 images simultanément.

Tesseract est une excellente solution, mais avant d'y penser, vous devez savoir que les versions du dernier Tesseract ont apporté de grandes améliorations, dont certaines signifient un travail acharné. Bien que la formation puisse durer des heures ou des jours, la formation récente des versions de Tesseract peut être de jours, de semaines ou même de mois, surtout si vous recherchez une solution d'OCR multilingue.

Installation de Tesseract sur Debian et Ubuntu:

Pour installer Tesseract sur Debian ou Ubuntu Linux Distribution, utilisez APT comme indiqué dans la capture d'écran ci-dessous.

sudo apt installer Tesseract-OCr -y

Cela va installer Tesseract sous / usr / share / Tesseract-oCr / 4.00 / Tessdata.

Note: Pour les autres distributions Linux, sautez pour installer Tesseract à partir de sources.

Par défaut, Tesseract installera le pack de langue anglaise. Pour installer des langues supplémentaires, la syntaxe est la suivante. Dans l'exemple ci-dessous, je vais installer le pack de langue hébraïque.

sudo apt installer Tesseract-OCR-HEB

Pour installer toutes les langues disponibles, exécutez:

sudo apt installer Tesseract-oCr-all -y

Pour que Tesseract fonctionne correctement, nous devrons utiliser la commande «Converti». Cette commande est utile pour convertir entre les formats d'image et redimensionner une image, flou, recadrage, peloter, plonger, dessiner, flip, joindre, rééchantillonner, et bien plus encore. Cet outil est fourni par ImageMagick:

sudo apt installer imageMagick

Maintenant, testons Tesseract, trouvons une image contenant du texte et exécutez:

tisseract

Tesseract extrait le texte de l'image.

Quand j'ai travaillé avec Tesseract, tout ce dont nous avions besoin était de documents de comte de mot. Comme pour tout autre programme, vous pouvez, et devez le former pour comprendre l'écriture.

Dans les éditeurs de texte avancés, nous pouvons définir certains symboles qui peuvent être comptés ou non, si pour compter ou non, etc., La même chose avec possibilité est disponible sur Tesseract.

Optimisation de Tesseract:

Optimisation de taille: Selon les sources officielles, la taille optimale des pixels pour une image à traiter avec succès par Tesseract est de 300 dpi. Nous devrons traiter n'importe quelle image en utilisant le paramètre -r pour appliquer ce DPI. L'augmentation du DPI augmentera également le temps de traitement.
Rotation des pages: Si, lorsqu'il est numérisé, la page n'est pas correctement positionnée et reste 180 ° ou 45 °, la précision de Tesseract diminuera afin que vous puissiez utiliser un script Python pour détecter et résoudre les problèmes de rotation automatiquement.
Retrait des frontières: Selon l'homme officiel de Tesseract, les frontières peuvent être choisies à tort comme des personnages, en particulier les bordures sombres et où il y a une variété de gradation. La suppression des frontières peut être une bonne étape pour atteindre une précision maximale avec Tesseract.
Suppression du bruit: Selon les sources de Tesseract, le bruit «est une variation aléatoire de la luminosité ou de la couleur dans une image». Nous pouvons supprimer cette variation de l'étape de binarisation, ce qui signifie polarisation de ses couleurs.

Introduction au processus de formation Tesseract:

Auparavant, cet article couvrait le processus de formation de Tesseract, qui a évolué vers un processus plus manuel qui mérite un article dédié. Par conséquent, cette section ne couvre que les informations théoriques sur le processus de formation et les instructions pour installer des outils de formation Tesseract et les lancer.

Selon le wiki officiel de Tesseract, nous avons 3 options actuelles pour former notre système OCR:

"Affiner. En commençant par une langue formée existante, entraînez-vous sur vos données supplémentaires spécifiques. Cela peut fonctionner pour des problèmes proches des données de formation existantes mais différentes d'une manière subtile, comme une police particulièrement inhabituelle. Peut travailler avec même une petite quantité de données de formation.
Coupez la couche supérieure (ou un nombre arbitraire de couches) du réseau et recyclez une nouvelle couche supérieure à l'aide des nouvelles données. Si le réglage fin ne fonctionne pas, c'est probablement la prochaine meilleure option. Si vous commencez par le script le plus similaire, couper la couche supérieure pourrait toujours fonctionner pour former une langue ou un script complètement nouveau.
Recycler à partir de zéro. Sauf si vous avez un ensemble de formation très représentatif et suffisamment important pour votre problème, c'est une tâche intimidante. Sinon, vous vous retrouverez probablement avec un réseau trop ajusté qui fait très bien sur les données de formation mais pas sur les données réelles.

Avant de continuer aux instructions de formation Tesseract, nous devrons installer des bibliothèques supplémentaires:

sudo apt install libicu-dev libicu-dev libcairo2-dev

Sur les distributions Linux basées à Debian, installez le package de développement Tesseract, y compris les outils de formation Tesseract utilisant l'APT comme indiqué ci-dessous. Si vous n'utilisez pas une distribution Linux basée à Debian, lisez les instructions pour installer des outils de formation Tesseract à partir de sources.

sudo apt install libtesseract-dev -y

Après l'installation, vous pourrez voir les outils de formation sous / usr / share / Tesseract-oCr / comme indiqué ci-dessous.

LS / USR / SHARE / Tesseract-OCr

Avant de commencer à entraîner une langue, vous devez fournir à Tesseract le contenu à partir de laquelle apprendre.

Pour cela, vous devez créer le répertoire Langdata et le sous-répertoire ENG dans le répertoire principal de l'installation de Tesseract. Créez ensuite le fichier texte de formation comme indiqué ci-dessous.

sudo mkdir / usr / share / tesseract-oCr / Langdata /
sudo mkdir / usr / share / tesseract-oct / langdata / eng /
Sudo Nano / USR / Share / Tesseract-OCr / Langdata / Eng / Eng.Training_Text

Note: N'oubliez pas d'ajouter du contenu au engin.Training_Text déposer.

Une fois le fichier texte de formation ajouté, la syntaxe pour commencer à former une langue est la suivante. La commande suivante est de former la langue anglaise définie comme «engin".

./ Tesstrain.Sh --Lang Eng --Langdata_Dir / Usr / Share / Tesseract-OCR / Langdata --Tessdata_Dir / Usr / Share / Tesseract-OCR / Tessdata

Ce processus peut prendre beaucoup de temps. Bien sûr, cela dépend également de vos fichiers texte de formation. Ceci est l'introduction du processus de formation Tesseract. Nous publierons un nouvel article axé sur le processus de formation uniquement.

Dépannage des polices manquantes:

Dans mon cas, j'ai eu une erreur en essayant de former Tesseract. La police audacieuse Arial manquait. J'ai résolu ceci en exécutant la commande ci-dessous.

sudo apt installer ttf-mscorefont-staller

Installez Tesseract à partir de sources sur Linux:

Sur différentes distributions Linux, vous pouvez obtenir Tesseract en utilisant Git, comme indiqué ci-dessous.

git clone https: // github.com / Tesseract-OCr / Tesseract.git

Une fois cloné, allez dans le répertoire Tesseract en fonctionnant en utilisant le CD.

CD Tesseract

Ensuite, exécutez le autogène.shot script comme indiqué ci-dessous.

Sudo ./ autogène.shot

La commande ci-dessus crée les fichiers d'installation; Maintenant, exécutez la commande suivante pour démarrer le processus d'installation.

Sudo ./ Configurer

Courir faire Pour commencer à compiler Tesseract.

sudo faire

Puis courez faire l'installation, Comme indiqué dans la capture d'écran ci-dessous.

sudo faire l'installation

Exécuter ldconfig comme indiqué ci-dessous.

sudo ldconfig

Pour compiler les outils de formation, exécutez la commande suivante.

Sudo fait une formation

Puis courez:

sudo fait l'installation de formation

Vous pouvez maintenant suivre les instructions pour commencer le processus de formation.

Conclusion:

Comme vous pouvez le voir, l'installation de Tesseract sur Linux est assez facile, en particulier sur les distributions Linux basées à Debian. Lorsque j'ai utilisé Tesseract, nous avons géré des milliers de clients potentiels en téléchargeant du contenu manuscrit, des images avec du texte, etc. Nous avons utilisé 48 serveurs de base, avec DatabaseByDesign puis avec AWS; Nous n'avons jamais eu de problème de ressources.

Nous avions un téléchargeur qui a fait preuve de discrimination entre les fichiers texte comme Microsoft Office ou les fichiers et images ouvrir des bureaux ou des documents numérisés. Le téléchargeur a déterminé tout ce que les scripts OCR ou PHP traiteraient une commande dans le domaine de la reconnaissance de texte.

D'après mon expérience, Tesseract est la meilleure solution OCR disponible sur le marché, et c'est open-source.

Merci d'avoir lu ce tutoriel expliquant comment installer et configurer Tesseract OCR sur Linux. Continuez à nous suivre pour des conseils et des tutoriels linux supplémentaires.

Python

Pandas read_csv multiprocessement

Pour améliorer la vitesse de chargement des données, y compris ses avantages et ses limites le «PD.L...

Nathan Blanc

Docker

Quelle est la différence entre Docker et Podman?

Docker utilise une architecture client-serveur tandis que Podman est un moteur de conteneur de démon...

Jules Colin

c Sharp

Qu'est-ce que le système.Espace de noms IO en C #

Système.IO est un espace de noms dans le C # qui fournit un ensemble de classes, de structures, d'én...

Julien Dumas