Massive Online Analytics (MOA) est un outil logiciel gratuit à utiliser les utilisateurs qui permet aux utilisateurs de travailler avec des flux de données. Les flux de données sont des paquets continus de données diffusées en temps réel pour être utilisées à mesure qu'elles sont reçues. Ce qui rend le MOA spécial, c'est qu'il est en mesure de recevoir des flux de données en tant qu'entrée et augmenter l'exécution d'un algorithme sous-jacent pour répondre aux besoins des données entrantes.
Le MOA est largement utilisé par la communauté des sciences des données pour générer des informations sur les données de nature continue. Il contient le clustering, la classification, la régression, la détection des valeurs aberrantes, la dérive du concept et les algorithmes d'apprentissage actifs qui peuvent utiliser les flux de données entrants pour générer des inférences précieuses. Ces inférences peuvent ensuite être évaluées à l'aide des algorithmes d'évaluation intégrés.
Des outils comme le MOA qui sont livrés avec des interfaces intuitives utilisateur graphiques permettent à tout le monde de créer facilement des algorithmes complexes qui sont capables de générer des informations utiles sur les données qui nécessiteraient autrement le codage dans un langage de programmation. Le MOA permet aux personnes de fond non programmées de fonctionner avec des modèles d'apprentissage automatique complexes et leur permet également d'obtenir des résultats précieux en tant que sorties sous différentes formes, y compris les graphiques, les tables et les graphiques.
Installation
Pour installer le MOA sur n'importe quelle machine Linux, nous commençons par télécharger le fichier MOA en premier.
1. Téléchargez le fichier depuis la page Web du MOA.
2. Une fois le fichier téléchargé, nous extrons le fichier téléchargé et le placons là où nous en avons besoin.
3. Nous ouvrons maintenant le dossier extrait et nous déplaçons dans le répertoire racine pour MOA.
4. Après avoir passé au répertoire racine, nous ouvrons une instance de terminal ici en cliquant avec le bouton droit et en sélectionnant le Ouvert dans le terminal option.
5. Nous exécutons maintenant la commande suivante pour exécuter le MOA sur n'importe quelle machine Linux:
$ bin / moa.shot
Vous devriez obtenir une sortie de terminal qui est similaire à ceci:
Avec cela, une instance de MOA devrait démarrer une exécution sur votre machine Linux.
Cela ressemble à quelque chose de similaire:
Mode d'emploi
Avec Moa Maintenant installé et prêt à l'emploi sur votre machine Linux, vous pouvez commencer à construire votre flux de travail d'analyse de données.
Pour commencer, vous devez cliquer sur le Configurer Option en haut de l'interface utilisateur graphique MOA. Cela vous fournit des catégories et des options différentes que vous pouvez choisir et sélectionner en fonction du type de modèle d'exploration de données votre application spécifique nécessite.
Pour cette expérience, nous créons un Classification Modèle en sélectionnant l'option de classification sur le côté gauche.
Les trois principales catégories que vous pouvez modifier ou plutôt choisir sont les Apprenant, Flux, et Évaluateur.
Apprenant
Cela spécifie le type de modèle que vous souhaitez que votre flux de travail utilise pour la formation sur vos données. Il existe plusieurs options à choisir, dont certaines sont:
Pour cette expérience, nous utilisons le Multinomialnaivebayes modèle.
Flux
Cela spécifie le type d'instances de données que nous voulons que notre modèle génère. Il existe plusieurs options à choisir à partir de laquelle inclure:
Cette option dépend spécifiquement du type d'instances générées que votre cas d'utilisation nécessite.
Nous utilisons WaveFormGenerator Pour ce guide.
Évaluateur
Cela spécifie le type d'évaluation que nous voulons que les sorties générées parcourent. Il existe trois options principales à choisir dans cette catégorie qui incluent:
Nous utilisons le Rassification de fenêtre Évaluateur avec précision, rappel, précision par classe, rappel par classe et score F1 par classe tous les résultats comme résultat. Ces mesures de performance nous aident à mieux comprendre les scores de distribution et de performance en termes de classe individuellement pour nos données.
Il existe d'autres options après les trois principales options liées au modèle que nous pouvons également modifier. Ils incluent des choses comme la limitation du nombre d'instances au modèle et des informations concernant la sortie des résultats de prédiction générés par le modèle. Nous les laisserons à leurs préréglages par défaut car ils ne sont pas requis aux fins de cette expérience.
Une fois que nous avons terminé la configuration du modèle pour répondre à nos besoins exacts, nous cliquons Courir option qui exécute essentiellement le modèle tel qu'il est. Avec des données continues qui l'ont livrée via des flux de données, il continue d'exécuter les itérations du modèle car il continue de recevoir les données en entrée. À chaque itération étant exécutée, les résultats qu'il génère sont sortis à l'écran.
L'image suivante montre les différents résultats que le modèle a générés. Il s'agit notamment de catégories comme le nombre d'instances sur lesquelles le modèle a formé et le temps d'évaluation que le CPU prend pour générer les résultats sur ces données.
Si nous faisons défiler plus loin, nous pouvons voir les mesures de performance sages en cours. Ces mesures de performance nous indiquent la précision, le rappel et les scores F1 en termes de classe. Qui sont tous activés pendant l'étape de configuration de la création du modèle.
Conclusion
Le monde de l'analyse des données a de nombreux outils qui peuvent être utilisés pour accomplir les flux de travail d'exploration de données. Certains d'entre eux sont livrés avec des interfaces utilisateur graphiques tandis que d'autres sont strictement basées sur la programmation. L'analyse en ligne massive est un de ces outils qui utilise une interface graphique intuitive. Cela aide les personnes ayant peu ou pas d'expérience en programmation pour créer et exécuter également des modèles intelligents complexes qui les aident à générer des résultats sur leurs flux de données.
L'avantage clé de l'utilisation du MOA est qu'il permet aux utilisateurs de travailler avec des flux de données. Cela signifie que des algorithmes d'analyse de données en temps réel peuvent être créés et utilisés pour certains cas d'utilisation. En conséquence, cet outil est devenu la solution de référence pour la plupart des applications de génération d'inférence en temps réel.