RDD signifie ensemble de données distribuées résilientes. Nous pouvons appeler RDD comme une structure de données fondamentale dans Apache Spark. La paire RDD stocke les éléments / valeurs sous la forme de paires de valeurs clés. Il stockera la paire de valeurs de clé dans le format (clé, valeur).
Nous devons importer RDD à partir du pyspark.module RDD.
Dans Pyspark pour créer un RDD, nous pouvons utiliser la méthode parallelize ().
Syntaxe:
Spark_App.étincelle.paralléliser (données)Où les données peuvent être une dimension (données linéaires) ou des données bidimensionnelles (données de colonne de ligne).
Pyspark rdd - setName ()
setName () dans Pyspark Rdd est utilisé pour définir le nom du RDD. Il prend le nom comme paramètre.
Syntaxe:
Rdd_data.setName ('rdd_name')Paramètre:
'Rdd_name' est le nom du RDD à affecter.
Exemple:
Dans cet exemple, nous créons un RDD nommé SubjectS_Rating et définissons le nom de ce RDD sur Sub_rate.
# importer le module PysparkSortir:
[('Python', 4), ('JavaScript', 2), ('Linux', 5), ('C #', 4), ('JavaScript', 4), ('Python', 3)]Nous pouvons voir que RDD est défini sur sub_rate et affiche le RDD à l'aide de la méthode Collect ().
Pyspark Rdd - Name ()
name () dans Pyspark Rdd est utilisé pour retourner le nom du RDD. Il ne prend aucun paramètre.
Syntaxe:
Données RDD.nom()Exemple:
Dans cet exemple, nous créons un RDD nommé SubjectS_Rating et définissons le nom de ce RDD sur Sub_rate puis obtenez le nom.
# importer le module PysparkSortir:
Sous-raccordeNous pouvons voir que le nom du RDD est sous.
Conclusion
Dans cet article, nous avons vu comment définir le nom d'un RDD à l'aide de setName () et comment renvoyer le nom d'un RDD en utilisant la méthode Name ().