Comment utiliser le textract pour extraire le texte des fichiers

Comment utiliser le textract pour extraire le texte des fichiers
Cet article couvrira un guide sur l'utilisation du module Python «textract» et de l'utilitaire de ligne de commande pour extraire le contenu basé sur le texte à partir d'une variété de formats de fichiers différents. Il peut extraire du texte de plus de 20 formats de fichiers différents et vous pouvez l'utiliser programmaticalement dans votre propre programme Python en important son module principal. Vous pouvez avoir utilisé d'autres outils de ligne de commande d'extraction de texte similaires. Cependant, ils sont principalement limités à un ou deux formats de fichiers spécifiques. Textract fournit une solution à un arrêt avec une interface unifiée pour extraire du texte d'une multitude de formats de fichiers différents. Il peut même utiliser la reconnaissance optique de la reconnaissance des caractères (OCR) et les technologies de reconnaissance vocale pour extraire le texte des fichiers d'image et audio respectivement.

Installation de textract à Linux

Vous pouvez installer textract dans Linux à partir du gestionnaire de packages PIP. Vous pouvez installer PIP Package Manager dans Ubuntu en exécutant la commande ci-dessous:

$ sudo apt installer python3-Pip

Une fois que PIP Manager a installé, exécutez la commande suivante pour installer des dépendances pour Textract:

$ sudo apt installer python3-dev libxml2-dev libxslt1-dev antiword unword unwrtf poppler-utils pstotext Tesseract-oct flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig python3-testresources

Utilisez maintenant PIP Package Manager pour installer Textract dans Ubuntu:

$ pip3 installer textract

Vous pouvez installer PIP Package Manager dans d'autres distributions Linux à partir du gestionnaire de packages. Alternativement, vous pouvez installer PIP Package Manager dans Linux en suivant les instructions d'installation officielles disponibles ici. Une fois le gestionnaire de packages PIP installé, vous pouvez soit utiliser la commande PIP spécifiée ci-dessus, soit suivre d'autres instructions d'installation disponibles dans la documentation officielle du textract (uniquement pour les distributions Linux autres que Ubuntu).

Extraction du texte des fichiers

Selon la documentation officielle du textract, vous pouvez l'utiliser pour extraire le texte à partir des formats de fichiers suivants:

Pour extraire le texte de l'un de ces fichiers pris en charge et afficher la sortie comme stdout dans le terminal, exécutez une commande dans le format suivant:

$ Textract Fichier.pdf

Vous pouvez remplacer «Fichier.PDF »avec tout autre format de fichier pris en charge par Textract. Selon le contenu d'un fichier, vous devriez voir une sortie similaire à ceci:

Pour enregistrer la sortie extraite dans un autre fichier, exécutez une commande dans le format suivant:

$ Textract Fichier.Fichier PDF -O.SMS

Vous pouvez remplacer les noms de fichiers au besoin. Le commutateur «-o» est utilisé pour spécifier le nom du fichier de sortie où le texte extrait sera stocké.

Textract détecte automatiquement le type d'extension de fichier et utilise une technologie appropriée pour analyser et extraire le contenu des fichiers. Ainsi, pour détecter et extraire le texte d'un fichier image, vous pouvez simplement utiliser la commande mentionnée ci-dessus et fournir un type de fichier d'image pris en charge comme argument. Tant que vous utilisez le type de fichier pris en charge et spécifiez correctement le nom de fichier avec une extension sur la ligne de commande, Textract fera tout le travail pour vous. Par exemple, pour extraire le contenu de texte à partir d'un fichier «png» ou «ogg», vous pouvez simplement exécuter ces commandes:

$ Textract Fichier.fichier png -o.SMS
$ Textract Fichier.Fichier OGG -O.SMS

Pour en savoir plus sur l'utilisation de la ligne de commande textract, exécutez la commande suivante:

$ textract - help

Utilisation du textract comme module Python

Vous pouvez utiliser Textract dans un programme Python à partir de l'échantillon de code suivant:

importer textract
Texte = textract.processus ("fichier.png ")
Imprimer (texte)

La première déclaration importe le module Textract principal. Ensuite, la méthode «processus» est appelée en lui fournissant un nom de fichier comme argument. Comme l'utilitaire de ligne de commande, la méthode de processus détecte automatiquement le type de fichier actuel à l'aide de son nom d'extension, puis utilise un analyseur de contenu et un extracteur appropriés adaptés à l'extension de fichier.

Vous pouvez également remplacer manuellement l'extension du fichier à l'aide de l'argument «Extension». Voici un exemple de code:

importer textract
Texte = textract.processus ("fichier.ogg ", extension =" ogg ")
Imprimer (texte)

Si vous souhaitez remplacer manuellement une méthode d'extraction automatique utilisée par Textract, vous pouvez utiliser l'argument «Méthode» (comme indiqué dans l'échantillon de code ci-dessous):

importer textract
Texte = textract.processus ("fichier.ogg ", méthode =" sox ")
Imprimer (texte)

Les types de fichiers pris en charge et les méthodes d'extraction sont répertoriés ici.

Pour en savoir plus sur les méthodes Textract Python et leur utilisation, vous pouvez afficher la documentation de l'API disponible ici.

Conclusion

Textract fournit une seule interface de ligne de commande unifiée et une API Python pour extraire du texte à partir d'un certain nombre de types de fichiers différents. Vous pouvez même l'utiliser pour extraire le contenu à partir de fichiers multimédias. Il convient particulièrement dans les cas où vous ne voulez pas passer par une multitude d'utilitaires de ligne de commande différents pour gérer l'extraction de texte et vous souhaitez utiliser une seule API pour tout.