Comment installer et configurer Apache Hadoop sur Ubuntu

Comment installer et configurer Apache Hadoop sur Ubuntu
Apache Hadoop est une plate-forme logicielle open-source basée sur Java et disponible pour stocker et analyser de grands ensembles de données sur vos clusters de système. Il conserve ses données dans le système de fichiers distribué Hadoop (HDFS) et traite qu'il en utilisant MapReduce. Hadoop a été utilisé dans l'apprentissage automatique et les techniques d'exploration de données. Il est également utilisé pour gérer plusieurs serveurs dédiés.

Les principaux composants d'Apache Hadoop sont:

  • HDFS: Dans Apache Hadoop, HDFS est un système de fichiers qui est distribué sur de nombreux nœuds.
  • Mapreduce: Il s'agit d'un cadre pour développer des applications qui gèrent une quantité massive de données.
  • Hadoop commun: C'est un ensemble de bibliothèques et d'utilitaires qui sont nécessaires par les modules Hadoop.
  • Fil Hadoop: Dans Hadoop, Hadoop Yarn gère les couches de ressources.

Maintenant, consultez les méthodes ci-dessous pour Installation et configuration d'Apache Hadoop sur votre système Ubuntu. Alors commençons!

Comment installer Apache Hadoop sur Ubuntu

Tout d'abord, nous ouvrirons notre terminal Ubuntu en appuyant sur «Ctrl + alt + t", Vous pouvez également taper"Terminal«Dans la barre de recherche de l'application comme suit:

L'étape suivante consiste à mettre à jour les référentiels du système:

$ sudo apt mise à jour

Maintenant, nous allons installer Java sur notre système Ubuntu en écrivant la commande suivante dans le terminal:

$ sudo apt install openjdk-11-jdk

Entrer "y / y«Pour permettre au processus d'installation de continuer:

Maintenant, vérifiez l'existence du Java installé en vérifiant sa version:

$ java -version

Nous créerons un utilisateur séparé pour exécuter Apache Hadoop sur notre système en utilisant le «adducteur" commande:

$ sudo addUser Hadoopuser

Entrez le mot de passe du nouvel utilisateur, son nom complet et d'autres informations. Taper "y / y«Pour confirmer que les informations fournies sont correctes:

Il est temps de changer l'utilisateur actuel avec l'utilisateur Hadoop créé, qui est «hadoopuser" dans notre cas:

$ Su - Hadoopuser

Maintenant, utilisez la commande ci-dessous pour générer des paires de clés privées et publiques:

$ ssh-keygen -t rsa

Entrez l'adresse du fichier où vous souhaitez enregistrer la paire de clés. Après cela, ajoutez une phrase secrète que vous allez être utilisée dans toute la configuration de l'utilisateur Hadoop:

Ensuite, ajoutez ces paires clés au ssh autorisé_keys:

à ~ /.ssh / id_rsa.pub >> ~ /.SSH / AUTORISED_KEYS

Comme nous avons stocké la paire de clés générée dans la clé SSH autorisée, nous allons maintenant modifier les autorisations de fichier en «640"Ce qui signifie que seul nous,"propriétaire«Du fichier aura les autorisations de lecture et d'écriture:«groupes"N'aura que l'autorisation de lecture. Aucune autorisation ne sera accordée à «autres utilisateurs»:

$ chmod 640 ~ /.SSH / AUTORISED_KEYS

Authentifiez maintenant le localhost en écrivant la commande suivante:

$ ssh localhost

Utiliser le diable wget Commande pour installer le framework Hadoop pour votre système:

$ wget https: // téléchargements.apache.org / hadoop / commun / hadoop-3.3.0 / Hadoop-3.3.0.le goudron.gz

Extraire le téléchargé "Hadoop-3.3.0.le goudron.gz”Fichier avec la commande TAR:

$ TAR -XVZF HADOOP-3.3.0.le goudron.gz

Vous pouvez également renommer le répertoire extrait comme nous le ferons en exécutant la commande divise:

$ mv hadoop-3.3.0 Hadoop

Maintenant, configurez les variables d'environnement Java pour configurer Hadoop. Pour cela, nous allons vérifier l'emplacement de notre «Java_home»Variable:

$ dirname $ (dirname $ (readLink -f $ (qui java)))

Ouvrez le «~ /.bashrc"Fichier dans votre"nano" éditeur de texte:

$ nano ~ /.bashrc

Ajoutez les chemins suivants dans l'ouverture "~ /.bashrc" déposer:

Exporter java_home = / usr / lib / jvm / java-11-openjdk-amd64
exporter hadoop_home = / home / hadoopuser / hadoop
exporter hadoop_install = $ hadoop_home
exporter hadoop_mapred_home = $ hadoop_home
exporter hadoop_common_home = $ hadoop_home
exporter hadoop_hdfs_home = $ hadoop_home
export hadoop_yarn_home = $ hadoop_home
exporter hadoop_common_lib_native_dir = $ hadoop_home / lib / natif
Export Path = $ Path: $ hadoop_home / sbin: $ hadoop_home / bin
exporter hadoop_opts = "- djava.bibliothèque.path = $ hadoop_home / lib / natif "

Après cela, appuyez sur "Ctrl + o«Pour enregistrer les modifications que nous avons apportées dans le fichier:

Maintenant, écrivez la commande ci-dessous pour activer le "Java_home»Variable d'environnement:

$ source ~ /.bashrc

La prochaine chose que nous devons faire est d'ouvrir le fichier variable d'environnement de Hadoop:

$ nano $ hadoop_home / etc / hadoop / hadoop-env.shot

Nous devons définir notre «Java_home»Variable dans l'environnement Hadoop:

Exporter java_home = / usr / lib / jvm / java-11-openjdk-amd64

Encore une fois, appuyez sur "Ctrl + o«Pour enregistrer le contenu du fichier:

Comment configurer Apache Hadoop sur Ubuntu

Jusqu'à ce point, nous avons réussi à installer Java et Hadoop, créé des utilisateurs de Hadoop, configuré l'authentification basée sur la clé SSH. Maintenant, nous allons avancer pour vous montrer Comment configurer Apache Hadoop sur l'Ubuntu système. Pour cela, l'étape consiste à créer deux répertoires: code de données et namenode, À l'intérieur du répertoire de la maison de Hadoop:

$ mkdir -p ~ / hadoopdata / hdfs / namenode
$ mkdir -p ~ / hadoopdata / hdfs / datanode

Nous mettrons à jour le Hadoop "site de base.xml"Fichier en ajoutant notre nom d'hôte, donc tout d'abord, confirmez le nom d'hôte de votre système en exécutant cette commande:

$ hostname

Maintenant, ouvrez le «site de base.xml"Fichier dans votre"nano" éditeur:

$ nano $ hadoop_home / etc / hadoop / core-site.xml

Notre nom d'hôte système dans "linuxhint-vbox», Vous pouvez ajouter les lignes suivantes avec le nom d'hôte du système sur le« site de base ouvert.Fichier XML ”Hadoop:



FS.defaultfs
hdfs: // hadoop.linuxhint-vbox.com: 9000

Presse "Ctrl + o»Et enregistrez le fichier:

Dans le "site HDFS.xml«Fichier, nous modifierons le chemin du répertoire de«code de données" et "namenode»:

$ nano $ hadoop_home / etc / hadoop / hdfs-site.xml


DFS.réplication
1


DFS.nom.diron
fichier: /// home / hadoopuser / hadoopdata / hdfs / namenode


DFS.données.diron
fichier: /// home / hadoopuser / hadoopdata / hdfs / datanode

Encore une fois, pour écrire le code ajouté dans le fichier, appuyez sur "Crtl + o»:

Ensuite, ouvrez le «site mapred.xml»Fichier et ajoutez le code ci-dessous:

$ nano $ hadoop_home / etc / hadoop / mapred site.xml


mapreduce.cadre.nom
fil

Presse "Ctrl + o«Pour enregistrer les modifications que vous avez apportées dans le fichier:

Le dernier fichier qui doit être mis à jour est le «Site de fil.xml". Ouvrez ce fichier hadoop dans le «nano" éditeur:

$ nano $ hadoop_home / etc / hadoop / yarn site.xml

Écrivez des lignes en dessous de «dans«Site de fil.xml" déposer:



fil.nodemanager.services aux auxiliaires
MapReduce_Shuffle

Nous devons commencer le cluster Hadoop pour faire fonctionner Hadoop. Pour cela, nous allons formater notre «namenode" d'abord:

$ hdfs namenode -format

Commencez maintenant le cluster Hadoop en écrivant la commande ci-dessous dans votre terminal:

$ start-dfs.shot

En train de démarrer le cluster Hadoop, si vous obtenez le «Pourrait résoudre l'erreur de nom d'hôte", Alors vous devez spécifier le nom d'hôte dans le"/ etc / hôte" déposer:

$ sudo nano / etc / hôtes

Sauver la "/ etc / hôte”Fichier, et maintenant vous êtes tous prêts à démarrer le cluster Hadoop:

$ start-dfs.shot

Dans la prochaine étape, nous commencerons le «fil”Service de l'Hadoop:

$ start-yarn.shot

L'exécution de la commande ci-dessus vous montrera la sortie suivante:

Pour vérifier l'état de tous les services de Hadoop, exécutez le «JPS«Commande dans votre terminal:

$ jps

La sortie montre que tous les services fonctionnent avec succès:

Hadoop écoute le port 8088 et 9870, Vous devez donc autoriser ces ports à travers le pare-feu:

$ Firewall-CMD - Permanent --Add-Port = 9870 / TCP
$ Firewall-CMD - Permanent --Add-Port = 8088 / TCP

Maintenant, rechargez les paramètres du pare-feu:

$ pare-feu-CMD - Reload

Maintenant, ouvrez votre navigateur et accédez à votre Hadoop "namenode"En entrant votre adresse IP avec le port 9870:

Utilisez le port "8080«Avec votre adresse IP pour accéder au gestionnaire de ressources Hadoop:

Sur l'interface Web Hadoop, vous pouvez rechercher le «Répertoire de navigation«En faisant défiler la page Web ouverte comme suit:

Il s'agissait d'installer et de configurer Apache Hadoop sur le système Ubuntu. Pour arrêter le cluster Hadoop, vous devez arrêter les services de «fil" et "namenode»:

$ stop-dfs.shot
$ stop-yarn.shot

Conclusion

Pour différentes applications de mégadonnées, Apache Hadoop est une plate-forme disponible librement pour gérer, stocker et traiter des données qui fonctionnent sur des serveurs en cluster. Il s'agit d'un système de fichiers distribué tolérant à des pannes qui permet un traitement parallèle. Dans Hadoop, le modèle MapReduce est utilisé pour stocker et extraire les données de ses nœuds. Dans cet article, nous vous avons montré la méthode pour installer et configurer Apache Hadoop sur votre système Ubuntu.