Les principaux composants d'Apache Hadoop sont:
Maintenant, consultez les méthodes ci-dessous pour Installation et configuration d'Apache Hadoop sur votre système Ubuntu. Alors commençons!
Comment installer Apache Hadoop sur Ubuntu
Tout d'abord, nous ouvrirons notre terminal Ubuntu en appuyant sur «Ctrl + alt + t", Vous pouvez également taper"Terminal«Dans la barre de recherche de l'application comme suit:
L'étape suivante consiste à mettre à jour les référentiels du système:
$ sudo apt mise à jour
Maintenant, nous allons installer Java sur notre système Ubuntu en écrivant la commande suivante dans le terminal:
$ sudo apt install openjdk-11-jdk
Entrer "y / y«Pour permettre au processus d'installation de continuer:
Maintenant, vérifiez l'existence du Java installé en vérifiant sa version:
$ java -version
Nous créerons un utilisateur séparé pour exécuter Apache Hadoop sur notre système en utilisant le «adducteur" commande:
$ sudo addUser Hadoopuser
Entrez le mot de passe du nouvel utilisateur, son nom complet et d'autres informations. Taper "y / y«Pour confirmer que les informations fournies sont correctes:
Il est temps de changer l'utilisateur actuel avec l'utilisateur Hadoop créé, qui est «hadoopuser" dans notre cas:
$ Su - Hadoopuser
Maintenant, utilisez la commande ci-dessous pour générer des paires de clés privées et publiques:
$ ssh-keygen -t rsa
Entrez l'adresse du fichier où vous souhaitez enregistrer la paire de clés. Après cela, ajoutez une phrase secrète que vous allez être utilisée dans toute la configuration de l'utilisateur Hadoop:
Ensuite, ajoutez ces paires clés au ssh autorisé_keys:
à ~ /.ssh / id_rsa.pub >> ~ /.SSH / AUTORISED_KEYS
Comme nous avons stocké la paire de clés générée dans la clé SSH autorisée, nous allons maintenant modifier les autorisations de fichier en «640"Ce qui signifie que seul nous,"propriétaire«Du fichier aura les autorisations de lecture et d'écriture:«groupes"N'aura que l'autorisation de lecture. Aucune autorisation ne sera accordée à «autres utilisateurs»:
$ chmod 640 ~ /.SSH / AUTORISED_KEYS
Authentifiez maintenant le localhost en écrivant la commande suivante:
$ ssh localhost
Utiliser le diable wget Commande pour installer le framework Hadoop pour votre système:
$ wget https: // téléchargements.apache.org / hadoop / commun / hadoop-3.3.0 / Hadoop-3.3.0.le goudron.gz
Extraire le téléchargé "Hadoop-3.3.0.le goudron.gz”Fichier avec la commande TAR:
$ TAR -XVZF HADOOP-3.3.0.le goudron.gz
Vous pouvez également renommer le répertoire extrait comme nous le ferons en exécutant la commande divise:
$ mv hadoop-3.3.0 Hadoop
Maintenant, configurez les variables d'environnement Java pour configurer Hadoop. Pour cela, nous allons vérifier l'emplacement de notre «Java_home»Variable:
$ dirname $ (dirname $ (readLink -f $ (qui java)))
Ouvrez le «~ /.bashrc"Fichier dans votre"nano" éditeur de texte:
$ nano ~ /.bashrc
Ajoutez les chemins suivants dans l'ouverture "~ /.bashrc" déposer:
Exporter java_home = / usr / lib / jvm / java-11-openjdk-amd64
exporter hadoop_home = / home / hadoopuser / hadoop
exporter hadoop_install = $ hadoop_home
exporter hadoop_mapred_home = $ hadoop_home
exporter hadoop_common_home = $ hadoop_home
exporter hadoop_hdfs_home = $ hadoop_home
export hadoop_yarn_home = $ hadoop_home
exporter hadoop_common_lib_native_dir = $ hadoop_home / lib / natif
Export Path = $ Path: $ hadoop_home / sbin: $ hadoop_home / bin
exporter hadoop_opts = "- djava.bibliothèque.path = $ hadoop_home / lib / natif "
Après cela, appuyez sur "Ctrl + o«Pour enregistrer les modifications que nous avons apportées dans le fichier:
Maintenant, écrivez la commande ci-dessous pour activer le "Java_home»Variable d'environnement:
$ source ~ /.bashrc
La prochaine chose que nous devons faire est d'ouvrir le fichier variable d'environnement de Hadoop:
$ nano $ hadoop_home / etc / hadoop / hadoop-env.shot
Nous devons définir notre «Java_home»Variable dans l'environnement Hadoop:
Exporter java_home = / usr / lib / jvm / java-11-openjdk-amd64
Encore une fois, appuyez sur "Ctrl + o«Pour enregistrer le contenu du fichier:
Comment configurer Apache Hadoop sur Ubuntu
Jusqu'à ce point, nous avons réussi à installer Java et Hadoop, créé des utilisateurs de Hadoop, configuré l'authentification basée sur la clé SSH. Maintenant, nous allons avancer pour vous montrer Comment configurer Apache Hadoop sur l'Ubuntu système. Pour cela, l'étape consiste à créer deux répertoires: code de données et namenode, À l'intérieur du répertoire de la maison de Hadoop:
$ mkdir -p ~ / hadoopdata / hdfs / namenode
$ mkdir -p ~ / hadoopdata / hdfs / datanode
Nous mettrons à jour le Hadoop "site de base.xml"Fichier en ajoutant notre nom d'hôte, donc tout d'abord, confirmez le nom d'hôte de votre système en exécutant cette commande:
$ hostname
Maintenant, ouvrez le «site de base.xml"Fichier dans votre"nano" éditeur:
$ nano $ hadoop_home / etc / hadoop / core-site.xml
Notre nom d'hôte système dans "linuxhint-vbox», Vous pouvez ajouter les lignes suivantes avec le nom d'hôte du système sur le« site de base ouvert.Fichier XML ”Hadoop:
FS.defaultfs hdfs: // hadoop.linuxhint-vbox.com: 9000
Presse "Ctrl + o»Et enregistrez le fichier:
Dans le "site HDFS.xml«Fichier, nous modifierons le chemin du répertoire de«code de données" et "namenode»:
$ nano $ hadoop_home / etc / hadoop / hdfs-site.xml
DFS.réplication 1 DFS.nom.diron fichier: /// home / hadoopuser / hadoopdata / hdfs / namenode DFS.données.diron fichier: /// home / hadoopuser / hadoopdata / hdfs / datanode
Encore une fois, pour écrire le code ajouté dans le fichier, appuyez sur "Crtl + o»:
Ensuite, ouvrez le «site mapred.xml»Fichier et ajoutez le code ci-dessous:
$ nano $ hadoop_home / etc / hadoop / mapred site.xml
mapreduce.cadre.nom fil
Presse "Ctrl + o«Pour enregistrer les modifications que vous avez apportées dans le fichier:
Le dernier fichier qui doit être mis à jour est le «Site de fil.xml". Ouvrez ce fichier hadoop dans le «nano" éditeur:
$ nano $ hadoop_home / etc / hadoop / yarn site.xml
Écrivez des lignes en dessous de «dans«Site de fil.xml" déposer:
fil.nodemanager.services aux auxiliaires MapReduce_Shuffle
Nous devons commencer le cluster Hadoop pour faire fonctionner Hadoop. Pour cela, nous allons formater notre «namenode" d'abord:
$ hdfs namenode -format
Commencez maintenant le cluster Hadoop en écrivant la commande ci-dessous dans votre terminal:
$ start-dfs.shot
En train de démarrer le cluster Hadoop, si vous obtenez le «Pourrait résoudre l'erreur de nom d'hôte", Alors vous devez spécifier le nom d'hôte dans le"/ etc / hôte" déposer:
$ sudo nano / etc / hôtes
Sauver la "/ etc / hôte”Fichier, et maintenant vous êtes tous prêts à démarrer le cluster Hadoop:
$ start-dfs.shot
Dans la prochaine étape, nous commencerons le «fil”Service de l'Hadoop:
$ start-yarn.shot
L'exécution de la commande ci-dessus vous montrera la sortie suivante:
Pour vérifier l'état de tous les services de Hadoop, exécutez le «JPS«Commande dans votre terminal:
$ jps
La sortie montre que tous les services fonctionnent avec succès:
Hadoop écoute le port 8088 et 9870, Vous devez donc autoriser ces ports à travers le pare-feu:
$ Firewall-CMD - Permanent --Add-Port = 9870 / TCP
$ Firewall-CMD - Permanent --Add-Port = 8088 / TCP
Maintenant, rechargez les paramètres du pare-feu:
$ pare-feu-CMD - Reload
Maintenant, ouvrez votre navigateur et accédez à votre Hadoop "namenode"En entrant votre adresse IP avec le port 9870:
Utilisez le port "8080«Avec votre adresse IP pour accéder au gestionnaire de ressources Hadoop:
Sur l'interface Web Hadoop, vous pouvez rechercher le «Répertoire de navigation«En faisant défiler la page Web ouverte comme suit:
Il s'agissait d'installer et de configurer Apache Hadoop sur le système Ubuntu. Pour arrêter le cluster Hadoop, vous devez arrêter les services de «fil" et "namenode»:
$ stop-dfs.shot
$ stop-yarn.shot
Conclusion
Pour différentes applications de mégadonnées, Apache Hadoop est une plate-forme disponible librement pour gérer, stocker et traiter des données qui fonctionnent sur des serveurs en cluster. Il s'agit d'un système de fichiers distribué tolérant à des pannes qui permet un traitement parallèle. Dans Hadoop, le modèle MapReduce est utilisé pour stocker et extraire les données de ses nœuds. Dans cet article, nous vous avons montré la méthode pour installer et configurer Apache Hadoop sur votre système Ubuntu.