Comment installer et utiliser Apache Mahout dans Linux

Comment installer et utiliser Apache Mahout dans Linux

Cornac est un projet open source de la Fondation du logiciel Apache. Il est utilisé pour la création d'algorithmes d'apprentissage automatique et d'analyses statistiques ou mathématiques. Mahout est en mesure d'assumer des tâches d'exploration de données et d'apprentissage automatique assez importantes en raison de son approche informatique distribuée de tels problèmes. En utilisant Hadoop en arrière-plan, Mahout est en mesure de diviser les grandes tâches d'exploration de données en sous-tâches plus petites qui sont ensuite prévues pour s'exécuter sur différentes instances de manière parallèle. Cela permet à l'utilisateur d'accomplir une tâche complexe relativement rapidement en la divisant en tâches plus petites et en les exécutant tous ensemble sur différents cas de l'application en utilisant l'infrastructure cloud.

Mahout fournit à ses utilisateurs une gamme de fonctionnalités différentes. Il s'agit notamment de techniques liées à l'apprentissage automatique et à l'analyse des données, dont certaines sont recommandation des modèles, classification techniques, et regroupement des modèles. Comme il est construit au-dessus de Hadoop, il permet aux utilisateurs d'utiliser le cloud computing distribué de Hadoop. Travaillant de manière transparente aux côtés de Hadoop, Mahout est en mesure d'accomplir très rapidement les tâches d'exploration de données et d'analyse, ce qui en fait l'une des meilleures solutions aux grands problèmes d'exploration de données.

Installation

Utiliser Cornac, Vous avez d'abord besoin de la version 1 de Java (JDK).7, Maven Version 3.0 ou plus, et subversion. Sans ces trois dépendances, Apache Mahout ne fonctionnera pas sur votre machine Linux.

Installation Java JDK

1. Accédez à la page des téléchargements Java en cliquant sur ce lien.

2. Sélectionnez le Linux X64: JDK-7U45-LINUX-X64.le goudron.GZ, acceptez les termes de licence et téléchargez le fichier.

3. Accédez au répertoire où vous avez téléchargé le fichier et ouvrez le terminal ici.


Exécutez la commande suivante:

$ sudo cp jdk-7u45-linux-x64.le goudron.gz / usr / local / lib /

Cela copie le dossier extrait dans / usr / local / lib /.

4. Se déplacer dans le / usr / local / lib / dossier en exécutant la commande suivante:

$ cd / usr / local / lib /

5. Exécutez la commande suivante dans le terminal pour extraire le contenu du dossier comprimé:

$ sudo tar -xzvf jdk-7u45-linux-x64.le goudron.gz


6. Supprimez le fichier compressé que nous venons d'extraire:

$ sudo RM JDK-7U45-Linux-X64.le goudron.gz

7. Déplacez-vous dans votre Nom / nom d'utilisateur / En exécutant la commande suivante:

$ cd / home // /

8. Ajoutez la maison Java sur le chemin en effectuant les étapes suivantes:

Exécutez la commande suivante:

$ nano .profil

Ajouter les deux lignes suivantes à la fin du profil que nous venons d'ouvrir.

exporter java_home = "/ usr / local / lib / jdk1.7.0_45 "
Export Path = "$ java_home / bin: $ path"


Installation de Maven

1. Avec un Java JDK maintenant installé, nous installons maintenant Maven qui est la deuxième exigence pour exécuter le Cornac.

Exécutez la commande suivante dans le terminal:

$ sudo apt-get install maven

Vous devriez voir une sortie similaire à l'illustration suivante:

Pour vérifier si Maven a été installé avec succès sur votre machine, exécutez la commande suivante dans le terminal:

$ mvn -v



Installation de subversion

1. Avec Maven maintenant installé avec succès, nous installons maintenant Subversion. Subversion est un système de contrôle de révision logiciel gratuit. Il permet aux utilisateurs de garder une trace de différentes versions du code source sur leurs machines.

Exécutez la commande suivante:

$ sudo apt-get install subversion

Vous devriez voir une sortie similaire dans votre terminal:

Exécutez la commande suivante pour vérifier si Subversion a été installée avec succès:

$ svn --version


2. Avec Subversion maintenant installée, nous avons réussi à installer toutes les dépendances pour Cornac.

Nous allons maintenant procéder au téléchargement et à installer Mahout.

Tout d'abord, déplacez-vous dans le répertoire dans lequel vous souhaitez installer Mahout.

Exécutez la commande suivante:

$ svn co http: // svn.apache.org / repos / asf / mahout / tronc

Vous devriez voir une sortie de terminal similaire:

Nous entrons maintenant dans le tronc annuaire:

$ CD Trunk

Maintenant, exécutez la commande suivante:

$ MVN -DSKIPTESTS

Vous devriez maintenant avoir Apache Mahout prêt à l'emploi sur votre machine Linux.

Mode d'emploi

Mahout utilise une interface de programmation pour déverrouiller le potentiel de l'informatique distribuée Mahout. La langue utilisée pour interagir avec ce cadre est Java.

Mahout est une solution complète à des tâches complexes d'apprentissage automatique et d'exploration de données. Puisqu'il ne fournit pas d'interface utilisateur interactive, les utilisateurs doivent connaître l'utilisation de la langue Java pour libérer le plein potentiel de ce cadre.

Cela signifie que Mahout ne peut pas être utilisé par des personnes qui ne parlent pas couramment Java. Cela ne signifie cependant pas qu'il n'a pas à essayer. Apprendre un nouveau langage de programmation est quelque chose qui n'est pas complexe aujourd'hui. Avec des ressources facilement disponibles, on peut facilement apprendre Java et interagir avec le cadre Mahout pour créer des algorithmes qui peuvent être utilisés avec de grands ensembles de données pour trouver les solutions et les modèles aux problèmes dans un environnement distribué.

Conclusion

Il existe de nombreux cadres d'exploration de données et d'apprentissage automatique disponibles sur le marché aujourd'hui. Cornac par Apache est l'un de ces frameworks. Mahout est célèbre pour permettre l'utilisation d'un environnement distribué utilisant Hadoop sur le cloud pour diviser les tâches complexes d'exploration de données en sous-tâches plus petites qui peuvent être exécutées sur plusieurs instances de l'application. Il en résulte que la tâche plus importante est terminée dans une période de temps plus courte tout en réduisant la puissance de calcul globale qui est utilisée pour les unités plus petites.

Mahout est utilisé en écrivant le code en java qui est une langue qui a fait son nom en survivant aux tests du temps. Cela fait de Java une compétence très utile pour avoir. Apprendre Java à utiliser cette fonctionnalité offerte par Apache est quelque chose que la plupart des scientifiques des données font à un moment donné de leur carrière. Alors que la plupart des professionnels de l'exploration de données n'auront jamais besoin d'utiliser le cloud computing distribué dans le domaine de la science des données, il existe cependant pour la petite quantité de tâches qui nécessitent une solution distribuée plus évolutive.