Pyspark Rdd - Nom et SetName

Pyspark Rdd - Nom et SetName
Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark.

RDD signifie ensemble de données distribuées résilientes. Nous pouvons appeler RDD comme une structure de données fondamentale dans Apache Spark. La paire RDD stocke les éléments / valeurs sous la forme de paires de valeurs clés. Il stockera la paire de valeurs de clé dans le format (clé, valeur).

Nous devons importer RDD à partir du pyspark.module RDD.

Dans Pyspark pour créer un RDD, nous pouvons utiliser la méthode parallelize ().

Syntaxe:

Spark_App.étincelle.paralléliser (données)

Où les données peuvent être une dimension (données linéaires) ou des données bidimensionnelles (données de colonne de ligne).

Pyspark rdd - setName ()

setName () dans Pyspark Rdd est utilisé pour définir le nom du RDD. Il prend le nom comme paramètre.

Syntaxe:

Rdd_data.setName ('rdd_name')

Paramètre:

'Rdd_name' est le nom du RDD à affecter.

Exemple:

Dans cet exemple, nous créons un RDD nommé SubjectS_Rating et définissons le nom de ce RDD sur Sub_rate.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
# Importer RDD de Pyspark.RDD
de Pyspark.RDD IMPORT RDD
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer 6 - Paires de sujets et de notation
sujets_rating = spark_app.étincelle.Parallélize ([('Python', 4), ('JavaScript', 2), ('Linux', 5), ('C #', 4), ('JavaScript', 4), ('Python', 3) ])
#Set le nom RDD à Sub_Rate
résultat = sujets_rating.setName ('sub_rate')
#display le RDD
imprimer (résultat.collecter())

Sortir:

[('Python', 4), ('JavaScript', 2), ('Linux', 5), ('C #', 4), ('JavaScript', 4), ('Python', 3)]

Nous pouvons voir que RDD est défini sur sub_rate et affiche le RDD à l'aide de la méthode Collect ().

Pyspark Rdd - Name ()

name () dans Pyspark Rdd est utilisé pour retourner le nom du RDD. Il ne prend aucun paramètre.

Syntaxe:

Données RDD.nom()

Exemple:

Dans cet exemple, nous créons un RDD nommé SubjectS_Rating et définissons le nom de ce RDD sur Sub_rate puis obtenez le nom.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
# Importer RDD de Pyspark.RDD
de Pyspark.RDD IMPORT RDD
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer 6 - Paires de sujets et de notation
sujets_rating = spark_app.étincelle.Parallélize ([('Python', 4), ('JavaScript', 2), ('Linux', 5), ('C #', 4), ('JavaScript', 4), ('Python', 3) ])
#Set le nom RDD à Sub_Rate
résultat = sujets_rating.setName ('sub_rate')
#return le nom RDD
imprimer (résultat.nom())

Sortir:

Sous-raccorde

Nous pouvons voir que le nom du RDD est sous.

Conclusion

Dans cet article, nous avons vu comment définir le nom d'un RDD à l'aide de setName () et comment renvoyer le nom d'un RDD en utilisant la méthode Name ().