Meilleures applications OCR pour Linux

Meilleures applications OCR pour Linux
Cet article couvrira une liste de logiciels utiles de «reconnaissance des caractères optiques» disponibles pour Linux. Un logiciel de reconnaissance de caractères optiques (OCR) tente de détecter le contenu texte des fichiers non texte dont le contenu ne peut pas être sélectionné ou copié mais peut être affiché ou lu. Par exemple, un logiciel OCR peut identifier le texte à partir d'images, de PDF ou d'autres documents numérisés dans des formats de fichiers numériques en utilisant divers algorithmes et solutions basées sur l'IA.

Ces logiciels OCR sont particulièrement utiles pour convertir et préserver les anciens documents car ils peuvent être utilisés pour identifier le texte et créer des copies numériques. Parfois, le texte identifié peut ne pas être précis à 100%, mais le logiciel OCR supprime la nécessité de modifications manuelles dans une large mesure en extrayant autant de texte que possible. Des modifications manuelles peuvent être effectuées plus tard pour améliorer la précision et créer des répliques individuelles. La plupart des logiciels OCR peuvent extraire du texte dans des fichiers séparés, bien que certains prennent également en charge la superposition d'une couche de texte cachée sur les fichiers d'origine. Le texte superposé vous permet de lire du contenu dans l'impression et le format d'origine, mais vous permet également de sélectionner et de copier le texte. Cette technique est spécialement utilisée pour numériser les anciens documents au format PDF.

Tesseract OCR

Tesseract OCR est un logiciel OCR gratuit et open source disponible pour Linux. Parrainé par Google, et entretenu par de nombreux bénévoles, il s'agit probablement de la suite OCR la plus complète disponible qui peut même battre certaines solutions de propriété payantes. Il fournit des outils de ligne de commande ainsi qu'une API que vous pouvez intégrer dans vos propres programmes. Il peut détecter le texte dans de nombreuses langues avec une bonne précision. Il est livré avec un ensemble de données pré-formées qui peuvent être utilisées pour identifier et extraire le texte. Vous pouvez également utiliser vos propres données formées si vous avez besoin d'une solution personnalisée ou si vous pouvez obtenir plus de modèles de tiers. Tesseract OCR est livré avec plusieurs moteurs de détection et vous pouvez les utiliser en fonction de vos besoins en fonction de la méthode d'installation.

Pour installer Tesseract OCR dans Ubuntu, utilisez la commande spécifiée ci-dessous:

$ sudo apt installer Tesseract-oCr

Vous pouvez l'installer dans d'autres distributions Linux à partir de référentiels par défaut via le gestionnaire de packages. Un fichier applimage universel et plus d'instructions d'installation sont disponibles ici.

Tesseract OCR est livré avec une prise en charge de la détection du contenu de la langue anglaise par défaut. Si vous souhaitez activer des langues supplémentaires, vous devrez peut-être télécharger plus de packs de langue. Le lien donné ci-dessus a des instructions pour installer des packs de langue supplémentaires. Dans Ubuntu, vous pouvez trouver directement des packages de langue en exécutant la commande ci-dessous:

$ apt-cache Search Tesseract-OCr-

La commande ci-dessus sortira les noms de packages pour différents packs de langue. Installez-les simplement en exécutant une commande dans le format suivant:

$ sudo apt install

Vous pouvez obtenir une liste de tous les packs de langue installés en exécutant la commande ci-dessous:

$ Tesseract - List-Langs

Une fois que le package OCR Tesseract principal et des packages de langues supplémentaires ont été installés, vous pouvez commencer à détecter du texte à partir d'images et de fichiers PDF. Pour extraire du texte, utilisez des commandes dans les formats suivants:

$ Image Tesseract.sortie png -l Eng
$ Image Tesseract.PNG OUTPUT -L ENG + SPA
$ Image Tesseract.PNG OUTPUT -L ENG PDF

La première commande extraitra le texte de «Image.Fichier PNG »en langue« Eng »et le stocker dans un fichier appelé« sortie ». La deuxième commande analysera l'image à l'aide de plusieurs packs de langue. La troisième commande peut être utilisée pour créer un fichier PDF avec une couche de texte superposée sur le fichier image.

Pour plus d'informations sur l'utilisation de la ligne de commande de Tesseract OCR, utilisez les deux commandes suivantes:

$ Tesseract - help
$ man tesseract

gimagereader

GimageReader est un client graphique du moteur OCR Tesseract mentionné ci-dessus. Vous pouvez l'utiliser pour exécuter la plupart des options et actions de ligne de commande prises en charge par Tesseract OCR, y compris l'extraction de texte de plusieurs fichiers, la vérification du texte extrait et l'exécution de post-traitement sur le texte identifié.

Pour installer GimageReader dans Ubuntu, utilisez la commande spécifiée ci-dessous:

$ sudo apt install gimageReader

Vous pouvez l'installer dans d'autres distributions Linux à partir de référentiels par défaut via le gestionnaire de packages. Plus de packages spécifiques à la distribution sont disponibles ici.

Formalités administratives

La paperasse est un gestionnaire de documents gratuit et open source. Vous pouvez l'utiliser pour gérer efficacement votre bibliothèque de documents, surtout si vous avez une grande collection. Il est également livré avec un mode OCR intégré qui utilise «Pyocr», un module Python basé sur les moteurs Tesseract et Cuneiforme OCR. Les autres caractéristiques principales des documents incluent la capacité de modifier des documents numérisés, une barre de recherche pour rechercher la bibliothèque de documents, la capacité de trier les documents, la prise en charge du scanner, etc.

Pour installer des documents dans Ubuntu, utilisez la commande spécifiée ci-dessous:

$ sudo apt installer les paperasseurs-gtk

Vous pouvez l'installer dans d'autres distributions Linux à partir de référentiels par défaut via le gestionnaire de packages. Un forfait Flatpak universel est également disponible ici.

Ocrfeeder

OCRFeeder est un logiciel OCR graphique gratuit et open source maintenu par l'équipe Gnome. Il prend en charge la reconnaissance du texte dans de nombreuses langues et peut exporter du contenu dans de nombreux formats de fichiers. Il prend en charge de nombreux moteurs OCR, notamment Tesseract OCR, GOCR, OCRAD et CUNEIOT. Il vous permet également de faire du post-traitement pour améliorer la mise en forme et la disposition du contenu texte extrait.

Pour installer OCRFeeder dans Ubuntu, utilisez la commande spécifiée ci-dessous:

$ sudo apt install ocrfeeder

Vous pouvez l'installer dans d'autres distributions Linux à partir de référentiels par défaut via le gestionnaire de packages. Un forfait Flatpak universel est également disponible ici.

Notez que lors de mes tests, OCRFeeder installé à partir des référentiels Ubuntu est venu avec un seul moteur OCR. Cependant, la construction Flatpak est venue avec les quatre moteurs OCR pris en charge, bien qu'il ait téléchargé environ 2 Go de données. Le package inclus dans le référentiel Ubuntu était de taille beaucoup plus petite.

gscan2pdf

GSCAN2PDF est un utilitaire graphique gratuit et open source qui peut identifier et extraire du texte à partir d'une variété de formats de fichiers. Il peut directement fonctionner avec les scanners pour scanner les articles, puis exporter le contenu de texte détecté par OCR dans des fichiers PDF. Il prend également en charge plusieurs moteurs OCR, notamment Tesseract OCR, GOCR, OCROPUS et CUNIOIFIOS, tant que des packages pour ces moteurs sont installés sur votre système. Outre la numérisation directe des articles, vous pouvez également importer des fichiers image et en extraire du texte.

Pour installer gscan2pdf dans Ubuntu, utilisez la commande spécifiée ci-dessous:

$ sudo apt installer gscan2pdf gocr cuneiform Tesseract-oCr

Vous pouvez l'installer dans d'autres distributions Linux à partir de référentiels par défaut via le gestionnaire de packages. Le code source et les binaires exécutables sont également disponibles ici.

Conclusion

Ce sont quelques-uns des moteurs de commande et des moteurs OCR graphiques les plus utiles disponibles pour Linux. Tesseract OCR est l'outil le plus activement développé et le plus complet pour détecter le texte et cela devrait être suffisant pour la plupart de vos besoins. Bien que vous puissiez également essayer d'autres applications mentionnées dans cet article si vous n'êtes pas satisfait des résultats de Tesseract OCR.