Tesseract est la solution OCR libre et probablement sur le marché. Depuis 2006, il est parrainé par Google; Auparavant, il a été développé par Hewlett Packard en C et C ++ entre 1985 et 1998. Le système peut identifier même l'écriture manuscrite; Il peut apprendre, augmenter sa précision et est parmi les plus développés et complets sur le marché.
S'il est correctement formé, il peut battre des concurrents commerciaux comme Abby; Si vous recherchez une solution sérieuse pour l'OCR, Tesseract est le plus précis, mais ne vous attendez pas à des solutions massives: il utilise un noyau par processus, ce qui signifie qu'un processeur à 8 noyau (hyperthreading accepté) sera en mesure de traiter 8 ou 16 images simultanément.
Tesseract est une excellente solution, mais avant d'y penser, vous devez savoir que les versions du dernier Tesseract ont apporté de grandes améliorations, dont certaines signifient un travail acharné. Bien que la formation puisse durer des heures ou des jours, la formation récente des versions de Tesseract peut être de jours, de semaines ou même de mois, surtout si vous recherchez une solution d'OCR multilingue.
Installation de Tesseract sur Debian et Ubuntu:
Pour installer Tesseract sur Debian ou Ubuntu Linux Distribution, utilisez APT comme indiqué dans la capture d'écran ci-dessous.
sudo apt installer Tesseract-OCr -y
Cela va installer Tesseract sous / usr / share / Tesseract-oCr / 4.00 / Tessdata.
Note: Pour les autres distributions Linux, sautez pour installer Tesseract à partir de sources.
Par défaut, Tesseract installera le pack de langue anglaise. Pour installer des langues supplémentaires, la syntaxe est la suivante. Dans l'exemple ci-dessous, je vais installer le pack de langue hébraïque.
sudo apt installer Tesseract-OCR-HEB
Pour installer toutes les langues disponibles, exécutez:
sudo apt installer Tesseract-oCr-all -y
Pour que Tesseract fonctionne correctement, nous devrons utiliser la commande «Converti». Cette commande est utile pour convertir entre les formats d'image et redimensionner une image, flou, recadrage, peloter, plonger, dessiner, flip, joindre, rééchantillonner, et bien plus encore. Cet outil est fourni par ImageMagick:
sudo apt installer imageMagick
Maintenant, testons Tesseract, trouvons une image contenant du texte et exécutez:
tisseract
Tesseract extrait le texte de l'image.
Quand j'ai travaillé avec Tesseract, tout ce dont nous avions besoin était de documents de comte de mot. Comme pour tout autre programme, vous pouvez, et devez le former pour comprendre l'écriture.
Dans les éditeurs de texte avancés, nous pouvons définir certains symboles qui peuvent être comptés ou non, si pour compter ou non, etc., La même chose avec possibilité est disponible sur Tesseract.
Optimisation de Tesseract:
Introduction au processus de formation Tesseract:
Auparavant, cet article couvrait le processus de formation de Tesseract, qui a évolué vers un processus plus manuel qui mérite un article dédié. Par conséquent, cette section ne couvre que les informations théoriques sur le processus de formation et les instructions pour installer des outils de formation Tesseract et les lancer.
Selon le wiki officiel de Tesseract, nous avons 3 options actuelles pour former notre système OCR:
Avant de continuer aux instructions de formation Tesseract, nous devrons installer des bibliothèques supplémentaires:
sudo apt install libicu-dev libicu-dev libcairo2-dev
Sur les distributions Linux basées à Debian, installez le package de développement Tesseract, y compris les outils de formation Tesseract utilisant l'APT comme indiqué ci-dessous. Si vous n'utilisez pas une distribution Linux basée à Debian, lisez les instructions pour installer des outils de formation Tesseract à partir de sources.
sudo apt install libtesseract-dev -y
Après l'installation, vous pourrez voir les outils de formation sous / usr / share / Tesseract-oCr / comme indiqué ci-dessous.
LS / USR / SHARE / Tesseract-OCr
Avant de commencer à entraîner une langue, vous devez fournir à Tesseract le contenu à partir de laquelle apprendre.
Pour cela, vous devez créer le répertoire Langdata et le sous-répertoire ENG dans le répertoire principal de l'installation de Tesseract. Créez ensuite le fichier texte de formation comme indiqué ci-dessous.
sudo mkdir / usr / share / tesseract-oCr / Langdata /
sudo mkdir / usr / share / tesseract-oct / langdata / eng /
Sudo Nano / USR / Share / Tesseract-OCr / Langdata / Eng / Eng.Training_Text
Note: N'oubliez pas d'ajouter du contenu au engin.Training_Text déposer.
Une fois le fichier texte de formation ajouté, la syntaxe pour commencer à former une langue est la suivante. La commande suivante est de former la langue anglaise définie comme «engin".
./ Tesstrain.Sh --Lang Eng --Langdata_Dir / Usr / Share / Tesseract-OCR / Langdata --Tessdata_Dir / Usr / Share / Tesseract-OCR / Tessdata
Ce processus peut prendre beaucoup de temps. Bien sûr, cela dépend également de vos fichiers texte de formation. Ceci est l'introduction du processus de formation Tesseract. Nous publierons un nouvel article axé sur le processus de formation uniquement.
Dépannage des polices manquantes:
Dans mon cas, j'ai eu une erreur en essayant de former Tesseract. La police audacieuse Arial manquait. J'ai résolu ceci en exécutant la commande ci-dessous.
sudo apt installer ttf-mscorefont-staller
Installez Tesseract à partir de sources sur Linux:
Sur différentes distributions Linux, vous pouvez obtenir Tesseract en utilisant Git, comme indiqué ci-dessous.
git clone https: // github.com / Tesseract-OCr / Tesseract.git
Une fois cloné, allez dans le répertoire Tesseract en fonctionnant en utilisant le CD.
CD Tesseract
Ensuite, exécutez le autogène.shot script comme indiqué ci-dessous.
Sudo ./ autogène.shot
La commande ci-dessus crée les fichiers d'installation; Maintenant, exécutez la commande suivante pour démarrer le processus d'installation.
Sudo ./ Configurer
Courir faire Pour commencer à compiler Tesseract.
sudo faire
Puis courez faire l'installation, Comme indiqué dans la capture d'écran ci-dessous.
sudo faire l'installation
Exécuter ldconfig comme indiqué ci-dessous.
sudo ldconfig
Pour compiler les outils de formation, exécutez la commande suivante.
Sudo fait une formation
Puis courez:
sudo fait l'installation de formation
Vous pouvez maintenant suivre les instructions pour commencer le processus de formation.
Conclusion:
Comme vous pouvez le voir, l'installation de Tesseract sur Linux est assez facile, en particulier sur les distributions Linux basées à Debian. Lorsque j'ai utilisé Tesseract, nous avons géré des milliers de clients potentiels en téléchargeant du contenu manuscrit, des images avec du texte, etc. Nous avons utilisé 48 serveurs de base, avec DatabaseByDesign puis avec AWS; Nous n'avons jamais eu de problème de ressources.
Nous avions un téléchargeur qui a fait preuve de discrimination entre les fichiers texte comme Microsoft Office ou les fichiers et images ouvrir des bureaux ou des documents numérisés. Le téléchargeur a déterminé tout ce que les scripts OCR ou PHP traiteraient une commande dans le domaine de la reconnaissance de texte.
D'après mon expérience, Tesseract est la meilleure solution OCR disponible sur le marché, et c'est open-source.
Merci d'avoir lu ce tutoriel expliquant comment installer et configurer Tesseract OCR sur Linux. Continuez à nous suivre pour des conseils et des tutoriels linux supplémentaires.