RDD signifie ensemble de données distribuées résilientes. Nous pouvons appeler RDD comme une structure de données fondamentale dans Apache Spark. La paire RDD stocke les éléments / valeurs sous la forme de paires de valeurs clés. Il stockera la paire de valeurs de clé dans le format (clé, valeur).
Nous devons importer RDD à partir du pyspark.module RDD.
Dans Pyspark pour créer un RDD, nous pouvons utiliser la méthode parallelize ().
Syntaxe:
Spark_App.étincelle.paralléliser (données)Où les données peuvent être des données unidimensionnelles (données linéaires) ou bidimensionnelles (données de colonne de ligne).
Pyspark Rdd - Lookup ()
Lookup () est une action dans la paire RDD, qui est utilisée pour renvoyer toutes les valeurs associées à une clé dans une liste. Il est effectué sur une seule paire RDD. Il faut une clé comme paramètre.
Syntaxe:
Rdd_data.recherche (clé)Paramètre:
La clé fait référence à la clé présente dans la paire RDD.
Exemple:
Dans cet exemple, nous aurons la recherche des touches - Python, JavaScript et Linux.
# importer le module PysparkSortir:
paire rdd: [('python', 4), ('javascript', 2), ('linux', 5), ('c #', 4), ('javascript', 4), ('python', 3 )]D'après la sortie ci-dessus, nous pouvons voir qu'il y a 2 valeurs qui existent avec Key-Python, donc il a renvoyé 4 et 3. Il y a 2 valeurs qui existent avec le javascript clé, donc il a renvoyé 2 et 4. Il n'y a qu'une seule valeur qui existe avec Key-Linux, donc il est retourné 1.
Pyspark Rdd - collectionAmap ()
collecasmap () est une action dans la paire RDD qui est utilisée pour renvoyer toutes les valeurs sous la forme d'une paire de cartes (clé: valeur). Il est utilisé pour fournir une recherche. Il ne prend aucun paramètre.
Syntaxe:
Rdd_data.collectionAmap ()Exemple:
Dans cet exemple, nous obtiendrons des valeurs de RDD à l'aide de collectionAmap ().
# importer le module PysparkSortir:
'Linux': 5, 'C #': 4, 'Javascript': 4, 'Python': 53Nous pouvons voir que RDD est renvoyé sous la forme de clé: Paies de valeur.
Notez que s'il y a plusieurs clés avec différentes valeurs, alors collecasmap () s'accusera en renvoyant la valeur mise à jour par rapport à la clé.
Exemple:
# importer le module PysparkSortir:
'Linux': 45, 'C #': 44, 'Javascript': 4, 'Python': 53Nous pouvons voir que les touches Linux et C # se sont produites deux fois. La deuxième fois que les valeurs sont de 45 et 44. Par conséquent, le collecasmap () revient avec les nouvelles valeurs.
Conclusion
Dans ce didacticiel Pyspark RDD, nous avons vu comment appliquer des actions Lookup () et collectionMap () sur la paire RDD. Lookup () est utilisé pour renvoyer les valeurs associées à la clé dans une liste en prenant la clé en tant que paramètre et collecasmap () renvoie le RDD sous la forme de la carte.