Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark.
RDD signifie ensemble de données distribuées résilientes. Nous pouvons appeler RDD comme une structure de données fondamentale dans Apache Spark.
Nous devons importer RDD à partir du pyspark.module RDD.
Dans Pyspark pour créer un RDD, nous pouvons utiliser la méthode parallelize ().
Syntaxe:
Spark_App.étincelle.paralléliser (données)
Où:
Les données peuvent être une dimension (données linéaires) ou des données bidimensionnelles (données en row-colonne).
Actions RDD:
Une action dans RDD est une opération qui est appliquée sur un RDD pour renvoyer une seule valeur. En d'autres termes, nous pouvons dire qu'une action résultera des données fournies en faisant une opération sur le RDD donné.
Voyons les actions qui sont effectuées sur le RDD donné.
Nous en discuterons un par un.
Pour toutes les actions, nous avons considéré le RDD des étudiants comme indiqué ci-dessous:
['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
collecter()
Collect () L'action dans RDD est utilisée pour renvoyer les données du RDD donné.
Syntaxe:
Rdd_data.collecter()
Où les données RDD sont le RDD
Exemple:
Dans cet exemple, nous verrons comment effectuer une action collection () sur le RDD des étudiants.
# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
# Importer RDD de Pyspark.RDD
de Pyspark.RDD IMPORT RDD
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = spark_app.étincelle.parallélile (['rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»])
#perform l'action de collecte
imprimer (étudiants.collecter())
Sortir:
['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
Vous pouvez remarquer que toutes les données sont renvoyées avec la méthode collection ().
2. compter()
L'action count () dans RDD est utilisée pour renvoyer le nombre total d'éléments / valeurs du RDD donné.
Syntaxe:
Rdd_data.compter()
Où les données RDD sont le RDD
Exemple:
Dans cet exemple, nous verrons comment effectuer l'action Count () sur le RDD des étudiants:
# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
# Importer RDD de Pyspark.RDD
de Pyspark.RDD IMPORT RDD
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = spark_app.étincelle.parallélile (['rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»])
# Perform Count Action
imprimer (étudiants.compter())
Sortir:
5
Vous pouvez remarquer que le nombre total d'éléments est retourné avec la méthode Count ().
3. d'abord()
L'action d'abord () dans RDD est utilisée pour renvoyer le premier élément / valeur du RDD donné.
Syntaxe:
Rdd_data.d'abord()
Où les données RDD sont le RDD
Exemple:
Dans cet exemple, nous verrons comment effectuer une action en premier () sur le RDD des étudiants.
# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
# Importer RDD de Pyspark.RDD
de Pyspark.RDD IMPORT RDD
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = spark_app.étincelle.parallélile (['rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»])
#Apply First () Action
imprimer (étudiants.d'abord())
Sortir:
'rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»
Vous pouvez remarquer que le premier élément est retourné avec la méthode première ().
4. prendre()
prendre () l'action dans RDD est utilisée pour retourner les valeurs N du haut du RDD donné. Il faut un paramètre - n. Où il fait référence à un entier qui spécifie le nombre d'éléments à retourner de RDD.
Syntaxe:
Rdd_data.pris)
Paramètre:
N- se réfère à un entier qui spécifie le nombre d'éléments à retourner de RDD.
Exemple:
Dans cet exemple, nous verrons comment effectuer une action TAPT () sur le RDD des étudiants en retournant seulement 2 valeurs.
# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
# Importer RDD de Pyspark.RDD
de Pyspark.RDD IMPORT RDD
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = spark_app.étincelle.parallélile (['rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»])
# PERFORMAGE AGISSEZ pour retourner uniquement les 2 premières lignes
imprimer (étudiants.prendre 2))
Sortir:['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»]
Vous pouvez remarquer que les 2 premiers éléments sont retournés avec la méthode Take ().
5. SaveAsTextFile ()
L'action SaveAsTextFile () est utilisée pour stocker les données RDD dans un fichier texte. Il prend le nom de fichier comme paramètre tel que le fichier est enregistré avec le nom de fichier spécifié.
Syntaxe:
Rdd_data.SAVEAFTextFile ('File_name.SMS')
Paramètre:
File_name - Le fichier est enregistré avec le nom de fichier spécifié.
Exemple:
Dans cet exemple, nous verrons comment effectuer une action SaveAsTextFile () sur le RDD des étudiants en stockant le fichier.
# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
# Importer RDD de Pyspark.RDD
de Pyspark.RDD IMPORT RDD
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = spark_app.étincelle.parallélile (['rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»])
#Perform SaveAsTextFile () Action pour enregistrer RDD dans le fichier texte.
étudiants.SaveAsTextFile ('Students_file.SMS')
Sortir:
Vous pouvez voir que les étudiants_file commencent à télécharger.
Conclusion
Dans ce tutoriel Pyspark, vous voyez ce qu'est un RDD et comment effectuer différentes actions disponibles sur RDD. Les actions effectuées sur RDD sont: Count () pour renvoyer le nombre total d'éléments dans RDD, Collect () pour renvoyer les valeurs présentes dans RDD, First () et Take () pour renvoyer First First et SaveAsTextFile () Pour enregistrer le RDD dans un fichier texte.