Découvrez les modèles et les informations cachées dans vos données à l'aide d'Apache UIMA dans Linux

Découvrez les modèles et les informations cachées dans vos données à l'aide d'Apache UIMA dans Linux

Lorsque vous travaillez avec de grandes quantités de données capturées à l'aide d'un large ensemble de paramètres, essayer de trouver les relations et les modèles entre les fonctionnalités peut devenir une tâche fastidieuse. Malgré des modèles préexistants différents qui sont déjà disponibles dans l'espace d'analyse des données, en utilisant un pour trouver une inférence significative sur les grands ensembles de données peut devenir une tâche de découverte de connaissances complexe et complète. Les grands ensembles de données avec un ensemble très large de paramètres de collecte de données ont tendance à avoir plusieurs types d'inférences de données différents tous stockés ensemble. L'intelligence légère dans la recherche d'algorithmes ne peut donc pas trouver correctement toutes les relations contenues dans un tel ensemble de données.

C'est là qu'Apache Uima entre. Les applications de gestion des informations non structurées (UIMA) sont spécifiquement conçues à cet effet - trouver le sens dans une distribution de données autrement invalide. Il est généralement utilisé pour trier les données non structurées et pour catégoriser les significations qui sont contenues dans les relations entre les différentes fonctionnalités qui sont présentes dans un ensemble de données. Ce que fait l'Apache Uima, c'est permettre aux utilisateurs de comprendre quelles fonctionnalités sont dépendantes les unes sur les autres, quelles relations sont importantes pour quelles catégories dans un ensemble de données et comment toutes les instances d'un ensemble de données finissent par pousser l'ensemble de données dans une certaine direction.

L'UIMA ne se limite pas à travailler avec des données textuelles; Il peut également être utilisé avec des données basées sur le signal (données vidéo et audio). Cela signifie que non seulement UIMA peut trouver la signification des données textuelles, mais elle peut également analyser les grands ensembles de données qui contiennent les échantillons audio ou vidéo et générer la signification de l'utilisateur en fonction de certains ensembles de paramètres fournis. Pour résumer, Apache UIMA permet à la découverte de connaissances en utilisant une approche analytique multimodale qui considère l'ensemble de données sous différentes perspectives pour trouver toutes les relations contenues dans.

Installation

Pour commencer par l'installation Apache UIMA, nous commençons par la mise à jour du référentiel local APT qui contient les noms et informations de packages.

1. Exécutez la commande suivante dans le terminal pour mettre à jour les référentiels locaux APT et les informations:

$ sudo apt-get update -y

Vous devriez voir une sortie similaire à ce qui suit:

2. Nous installons maintenant l'Apache UIMA en exécutant la commande suivante dans le terminal:

$ sudo apt-get install -y uima-doc

NOTE: L'argument -y garantit que l'installation se produit silencieusement sans que vous ayez à saisir «oui» pour toute invite que la configuration de l'installation nécessite.

Vous devriez voir une sortie similaire à ce qui suit:

3. Nous téléchargeons maintenant le package de distribution UIMA préféré en visitant le lien ou en utilisant l'outil WGET et en exécutant la commande dans le terminal (pour les utilisateurs de Linux uniquement):

$ wget https: // dlcdn.apache.org // uima // uimaj-3.3.1 / uimaj-3.3.1 bin.le goudron.gz

Vous devriez voir une sortie similaire à ce qui suit:

4. Une fois le téléchargement terminé, nous y extrons le fichier téléchargé et le CD.

Exécutez la commande suivante dans le terminal:

$ tar xzf

Ainsi:

Ensuite, déplacez-vous dans le dossier extrait en exécutant la commande suivante:

$ cd apache-uima

5. Nous créons maintenant une variable d'environnement UIMA et lui donnons le chemin où réside le dossier extrait.
Exécutez la commande suivante dans le terminal:

$ export uima_home = ""

6. Exécutez les commandes suivantes dans le terminal. Vous verrez une instance d'Apache Uima ouvrant:

$ $ Uima_home / bin / ajustement.sh $ $ uima_home / bin / documentanalyzer.shot

Mode d'emploi

Avec l'Apache Uima maintenant prêt à l'emploi, nous commençons par sélectionner l'emplacement du descripteur XML du moteur d'analyse. Aux fins de ce guide, nous sélectionnons une distribution de données préfabriquée pour exécuter l'analyse et trouver les modèles de cette distribution de données.

Nous exécutons maintenant le modèle et examinons les sorties qu'elle génère.

Jetons un coup d'œil à l'une des sorties générées:

Nous pouvons voir que de l'ensemble de données qui contiennent les multitudes des passages textuels contenant des informations différentes sur différents sujets, UIMA est en mesure de les trier en distributions plus petites qui contient les informations sur un certain sujet.

En sélectionnant le personnel dans les annotations disponibles, nous pouvons voir qu'il est capable de mettre en évidence toutes les personnes mentionnées dans la distribution de données.

Conclusion

Trouver le sens et l'inférence dans de grands ensembles de données non structurés peuvent être une tâche difficile. Le nombre de paramètres différents à rechercher et à analyser rend l'espace cible vraiment énorme et il devient quelque peu inefficace d'analyser un tel ensemble de données avec des algorithmes traditionnels. Apache UIMA aide à résoudre ce problème car il est en mesure d'analyser les grands ensembles de données avec une facilité relative et de générer une inférence, de trouver des relations et de découvrir les modèles même dans les ensembles de données les plus importants qui sont compilés sur la base d'un très large ensemble de paramètres d'entrée. Non seulement il fonctionne brillamment sur les données textuelles, mais elle fait également très bien sur les données audio ou vidéo.