Installation de textract à Linux
Vous pouvez installer textract dans Linux à partir du gestionnaire de packages PIP. Vous pouvez installer PIP Package Manager dans Ubuntu en exécutant la commande ci-dessous:
$ sudo apt installer python3-Pip
Une fois que PIP Manager a installé, exécutez la commande suivante pour installer des dépendances pour Textract:
$ sudo apt installer python3-dev libxml2-dev libxslt1-dev antiword unword unwrtf poppler-utils pstotext Tesseract-oct flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig python3-testresources
Utilisez maintenant PIP Package Manager pour installer Textract dans Ubuntu:
$ pip3 installer textract
Vous pouvez installer PIP Package Manager dans d'autres distributions Linux à partir du gestionnaire de packages. Alternativement, vous pouvez installer PIP Package Manager dans Linux en suivant les instructions d'installation officielles disponibles ici. Une fois le gestionnaire de packages PIP installé, vous pouvez soit utiliser la commande PIP spécifiée ci-dessus, soit suivre d'autres instructions d'installation disponibles dans la documentation officielle du textract (uniquement pour les distributions Linux autres que Ubuntu).
Extraction du texte des fichiers
Selon la documentation officielle du textract, vous pouvez l'utiliser pour extraire le texte à partir des formats de fichiers suivants:
Pour extraire le texte de l'un de ces fichiers pris en charge et afficher la sortie comme stdout dans le terminal, exécutez une commande dans le format suivant:
$ Textract Fichier.pdf
Vous pouvez remplacer «Fichier.PDF »avec tout autre format de fichier pris en charge par Textract. Selon le contenu d'un fichier, vous devriez voir une sortie similaire à ceci:
Pour enregistrer la sortie extraite dans un autre fichier, exécutez une commande dans le format suivant:
$ Textract Fichier.Fichier PDF -O.SMS
Vous pouvez remplacer les noms de fichiers au besoin. Le commutateur «-o» est utilisé pour spécifier le nom du fichier de sortie où le texte extrait sera stocké.
Textract détecte automatiquement le type d'extension de fichier et utilise une technologie appropriée pour analyser et extraire le contenu des fichiers. Ainsi, pour détecter et extraire le texte d'un fichier image, vous pouvez simplement utiliser la commande mentionnée ci-dessus et fournir un type de fichier d'image pris en charge comme argument. Tant que vous utilisez le type de fichier pris en charge et spécifiez correctement le nom de fichier avec une extension sur la ligne de commande, Textract fera tout le travail pour vous. Par exemple, pour extraire le contenu de texte à partir d'un fichier «png» ou «ogg», vous pouvez simplement exécuter ces commandes:
$ Textract Fichier.fichier png -o.SMS
$ Textract Fichier.Fichier OGG -O.SMS
Pour en savoir plus sur l'utilisation de la ligne de commande textract, exécutez la commande suivante:
$ textract - help
Utilisation du textract comme module Python
Vous pouvez utiliser Textract dans un programme Python à partir de l'échantillon de code suivant:
importer textract
Texte = textract.processus ("fichier.png ")
Imprimer (texte)
La première déclaration importe le module Textract principal. Ensuite, la méthode «processus» est appelée en lui fournissant un nom de fichier comme argument. Comme l'utilitaire de ligne de commande, la méthode de processus détecte automatiquement le type de fichier actuel à l'aide de son nom d'extension, puis utilise un analyseur de contenu et un extracteur appropriés adaptés à l'extension de fichier.
Vous pouvez également remplacer manuellement l'extension du fichier à l'aide de l'argument «Extension». Voici un exemple de code:
importer textract
Texte = textract.processus ("fichier.ogg ", extension =" ogg ")
Imprimer (texte)
Si vous souhaitez remplacer manuellement une méthode d'extraction automatique utilisée par Textract, vous pouvez utiliser l'argument «Méthode» (comme indiqué dans l'échantillon de code ci-dessous):
importer textract
Texte = textract.processus ("fichier.ogg ", méthode =" sox ")
Imprimer (texte)
Les types de fichiers pris en charge et les méthodes d'extraction sont répertoriés ici.
Pour en savoir plus sur les méthodes Textract Python et leur utilisation, vous pouvez afficher la documentation de l'API disponible ici.
Conclusion
Textract fournit une seule interface de ligne de commande unifiée et une API Python pour extraire du texte à partir d'un certain nombre de types de fichiers différents. Vous pouvez même l'utiliser pour extraire le contenu à partir de fichiers multimédias. Il convient particulièrement dans les cas où vous ne voulez pas passer par une multitude d'utilitaires de ligne de commande différents pour gérer l'extraction de texte et vous souhaitez utiliser une seule API pour tout.