Tesseract est un outil de reconnaissance de texte open source disponible gratuitement également connu sous le nom d'OCR (reconnaissance des caractères optiques). Il est principalement utilisé pour identifier et extraire du texte des images. Il lira le texte à partir des données d'image et écrira une sortie dans un nouveau .fichier txt. Tesseract travaille également sous Python, car il est principalement utilisé pour reconnaître l'écriture à partir d'images. Il utilise le modèle LSTR (longue mémoire à court terme). Tesseract travaille sous l'Apache 2.0 Licence.
Nous allons développer la méthode pour installer Tesseract sur Windows dans ce blog.
Alors, commençons!
Comment installer Tesseract sur Windows?
Le Tesseract est un outil de ligne de commande qui est utilisé pour l'extraction de texte à partir d'images. Pour installer Tesseract sur Windows, vous devez suivre les instructions ci-dessous.
Étape 1: Télécharger l'installateur Tesseract
Tout d'abord, accédez au lien ci-dessous et téléchargez le programme d'installation de Tesseract en fonction de la spécification de votre système:
https: // github.com / ub-mannheim / Tesseract / wiki
Étape 2: Exécutez l'installateur Tesseract
Visiter le "Téléchargements”Répertoire où l'installateur Tesseract est téléchargé. Afin d'installer Tesseract sur Windows, exécutez le programme d'installation de Tesseract en double-cliquant dessus:
Étape 3: Sélectionnez la langue
De nombreuses langues sont prises en charge par l'installateur Tesseract. Pour interagir avec l'interface utilisateur, choisissez "Anglais"Comme langue et cliquez sur"D'ACCORD»:
Étape 4: Installez Tesseract
Ce faisant, l'assistant de configuration Tesseract OCR apparaîtra à l'écran. Pour commencer l'installation de Tesseract, appuyez sur le «Suivant" bouton:
Accepter le «Accord de licence", clique le "Je suis d'accord" bouton:
Sélectionnez le "Installer pour quiconque utilise cet ordinateur«Option et appuyez sur«Suivant" bouton:
Si vous souhaitez ajouter des données de script ou inclure une autre langue, marquez leurs cases respectives et appuyez sur le "Suivant" bouton. Comme nous ne voulons pas de script ou de langue de données supplémentaires, nous continuerons avec les options sélectionnées par défaut:
Choisissez l'emplacement d'installation et cliquez sur le «Suivant" bouton:
Si vous ne voulez pas créer de raccourci dans le menu Démarrer, marquez le "Ne créez pas de raccourcis”Cochez la case et appuyez sur"Installer" bouton:
Après cela, l'installation de Tesseract sera démarrée. Attendez que l'installation se termine et appuyez sur le «Suivant" bouton:
Enfin, cliquez sur le «Finir" bouton:
Étape 5: Définir la variable d'environnement
Après l'installation, vous devez définir la variable d'environnement du Tesseract. Pour ce faire, visitez tout d'abord le répertoire où vous avez installé le Tesseract et copiez le chemin du "Adresse" bar:
Faites une recherche de «Variables d'environnement" dans le "Commencez"Menu et ouvrez"Modifier les variables d'environnement du système»:
À l'intérieur des paramètres, accédez à la «Avancé"Réglage du menu et cliquez sur"Variables d'environnement" bouton:
Choisir la "Chemin«Variable du«Variables système”Panneau, et appuyez sur le"Modifier" bouton:
Après cela "Modifier la variable d'environnement"La fenêtre apparaîtra à l'écran. Appuie sur le "Nouveau”Bouton et collez le chemin du répertoire d'installation de Tesseract Copied ici. Enfin, cliquez sur le «D'ACCORD" bouton:
Étape 6: Vérifiez l'installation de Tesseract
Pour vérifier l'installation de Tesseract, ouvrez l'invite de commande Windows en recherchant "Invite de commande" dans le "Commencez" menu:
Consultez la version Tesseract à l'aide de la commande fournie:
> Tesseract --version
La sortie en dessous indique que nous avons réussi à installer la version Tesseract "v5.2.0”Sur Windows:
Passons de l'avant pour vérifier comment utiliser Tesseract sur Windows.
Comment utiliser Tesseract sur Windows?
Le Tesseract est utilisé pour lire l'écriture manuscrite ou extraire du texte des images. Voyons voir comment ça fonctionne:
Étape 1: Sélectionnez l'image
Sélectionnez l'image à partir de laquelle vous souhaitez extraire le texte. Comme nous l'avons choisi «1.PNG»:
Étape 2: Extraire le texte de l'image
Une fois le CMD ouvert. Utilisez le «CD”Commande pour modifier le répertoire où l'image est stockée. Ensuite, exécutez le "tisseract«Commande et définissez le nom du fichier d'image comme nous l'avons spécifié«1.PNG". Le "Texte»Les émissions du paramètre indiquent le nom du fichier de sortie:
> CD C: \ Users \ anuma \ OneDrive \ Pictures \ Saved Pictures
> Tesseract 1.png "texte"
Étape 3: Vérifiez l'extraction de texte
Pour vérifier l'extraction de texte, naviguez dans le répertoire où le fichier image existe. Vous pouvez voir que le fichier de sortie "Texte"Est également enregistré ici. Double-cliquez sur le fichier de sortie pour vérifier si le Tesseract a extrait le texte de l'image ou non:
Vous pouvez voir que nous avons réussi à extraire le texte à l'aide de l'outil de ligne de commande Tesseract:
Nous avons démontré la technique pour installer et utiliser Tesseract sur Windows.
Conclusion
Pour installer le Tesseract sur Windows, il est nécessaire de télécharger le programme d'installation de Tesseract. À cette fin, suivez la première session de cet article. Définissez ensuite la variable d'environnement de chemin à utiliser et accéder à Tesseract à partir de l'invite de commande Windows. Ensuite, sélectionnez le fichier image et utilisez le "Tisseract»Commande pour reconnaître et extraire le texte de l'image. Ici, vous avez appris à installer et à utiliser le «Tisseract»Sur Windows.