Orange est un logiciel d'exploration de données qui fournit à ses utilisateurs des solutions uniques et prêtes à l'emploi aux problèmes d'analyse de données quotidiens. Il utilise une interface de programmation visuelle qui permet aux utilisateurs de comprendre et de contrôler leurs flux de travail de données de manière visuellement intuitive. À la base, il utilise des modules basés sur Python qui lui permettent de hériter de leur fonctionnalité de base à implémenter sur les données qui y sont chargées. Outre les techniques d'exploration de données, il fournit également un excellent support aux algorithmes d'apprentissage automatique qui aident les utilisateurs à générer des informations vives à partir de leurs données.
Orange est largement utilisé dans le domaine de l'éducation et de la recherche et est considéré comme un excellent outil par des groupes de recherche non programmés. L'interface de programmation visuelle appelée Toile d'orange facilite la réalisation du travail même pour les personnes qui n'ont pas une expérience complète dans la programmation. La toile fonctionne en permettant aux utilisateurs de mettre des widgets qui représentent certaines fonctionnalités de base d'un flux de travail d'analyse des données. Ces widgets peuvent ensuite être empilés l'un après l'autre pour créer un pipeline complet que les données se déplacent et génère la sortie requise.
À la fin de cet article, vous pourrez:
Installation
Comme indiqué précédemment, Orange utilise des modules Python, c'est pourquoi il peut être facilement téléchargé à partir du Python Package Manager appelé pépin. Pour utiliser PIP, nous devons d'abord le télécharger et l'installer.
Suivez les étapes de l'installation complète d'Orange sur votre machine Linux.
1. Tout d'abord, nous devons mettre à jour le local apte Référentiels utilisant la commande suivante:
$ sudo apt-get updat
Vous devriez obtenir une sortie qui est similaire à ceci:
2. Après avoir mis à jour le apte Référentiels locaux, vous installez maintenant des packages Python qui vous aideront à télécharger et à installer Orange. Cela se fait car Orange est essentiellement un module Python qui utilise certaines fonctionnalités de base à partir d'autres modules Python pour vous fournir des capacités d'exploration de données et d'analyse.
Exécutez la commande suivante pour télécharger le pépin Gestionnaire de packages et Python virtualv installation:
$ sudo apt-get install git python-pip python-virtualenv
Vous devriez obtenir une sortie similaire à ceci:
Maintenant, exécutez la deuxième commande qui télécharge tous les modules Python nécessaires qui sont requis par Orange pour s'exécuter correctement:
$ sudo apt-get install git python3-dev python3 numpy python3-scipy
python3-pyqt4 python-qt4-dev python3-sip-dev libqt4-dev
Note: Cette commande peut prendre un certain temps pour terminer l'exécution en fonction de votre connexion Internet.
Deuxièmement, vous pourriez être invité à appuyer sur le Y clé pour accepter l'installation d'autres packages de base.
Vous devez vous attendre à une sortie similaire à ceci:
3. Nous créons maintenant un environnement virtuel pour installer tous les Orange modules et dépendances.
Exécutez les commandes suivantes:
$ mkdir orange3env
$ virtualenv -p python3 - système-site-packages orange3env
$ source orange3env / local / bin / activer
Note: Si la commande précédente ne fonctionne pas, exécutez la commande suivante:
$ source orange3env / bin / activer
4. Installer Orange en appelant pépin que nous avons déjà téléchargé.
Exécutez la commande suivante:
$ pip install orange3
Vous devriez obtenir la sortie suivante:
5. La sortie réussie de l'étape précédente signifie que Orange a été téléchargé et installé à l'aide du gestionnaire de packages Python pépin.
Nous exécutons maintenant la commande suivante pour exécuter Orange:
$ python -m orange.toile
Note: Si ce qui suit Orange Les écrans GUI s'ouvrent, cela signifie que tous vos efforts ont réussi et que l'orange est installé et ouvert sur votre machine Linux.
Mode d'emploi
Orange est un outil pratique de l'exploration de données et d'analyse qui permet aux utilisateurs de créer des flux de travail d'analyse de données de manière visuelle et interactive. Cela signifie que vous pouvez créer des modèles complexes en utilisant une technique de glisser-déposer simple.
Le module orange est livré avec une toile qui peut être utilisée pour faire glisser et déposer les widgets qui représentent les différentes fonctionnalités. Nous créerons un pipeline simple dans ce guide qui importe les données en orange, puis effectuer des actions sur ces données et sortir les résultats.
Par exemple, nous pouvons voir toutes les différentes manières de l'image suivante dans laquelle les données peuvent être importées dans l'outil orange qui incluent l'importation à partir de tables SQL, de fichiers CSV, de données de peinture, et plus.
Nous importons les données à partir d'un fichier CSV aux fins de ce tutoriel.
Maintenant que nous avons spécifié le format de données que nous nous attendons à saisir dans notre pipeline, nous sélectionnons une action que nous voulons effectuer sur ces données.
Nous allons maintenant au Transformer onglet et sélectionnez le widget randomisé qui prend toutes les entrées de données dans nos données et randomisez leur commande.
Maintenant que nous savons ce que nous voulons faire avec nos données importées, nous pouvons choisir comment nous voulons afficher les résultats de ces données.
Pour notre guide, construisons un graphique à barres des données randomisées afin que nous puissions voir quelles classes les données appartiennent et la quantité de données contenues dans ces classes.
Une fois les données importées dans le modèle que nous avons créé, il traverse automatiquement l'intégralité du pipeline, faisant son chemin à partir de l'importation vers la création de tracé de la barre. La sortie que nous recevons sur nos données peut être vue ci-dessous:
De plus, nous pouvons également afficher les données à l'aide du widget Tableau de données Dans la catégorie Visualisez.
Conclusion
Comme on peut le voir, travailler en orange pour la science des données est extrêmement facile et intuitif. Tout ce que vous avez à faire est de glisser et de supprimer les différentes fonctionnalités que vous souhaitez que vos données passent et collectent les sorties. Cet outil est particulièrement utile pour les personnes qui n'ont pas de contexte de programmation mais doivent encore exécuter certaines évaluations sur leurs données. Les communautés de recherche et universitaire utilisent Orange Abondamment car il leur permet de générer l'inférence et les informations sur leurs données avec une facilité relative et peu ou pas de connaissances préalables.