Pyspark Rdd - Lookup, collectionascap

Pyspark Rdd - Lookup, collectionascap
Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark.

RDD signifie ensemble de données distribuées résilientes. Nous pouvons appeler RDD comme une structure de données fondamentale dans Apache Spark. La paire RDD stocke les éléments / valeurs sous la forme de paires de valeurs clés. Il stockera la paire de valeurs de clé dans le format (clé, valeur).

Nous devons importer RDD à partir du pyspark.module RDD.

Dans Pyspark pour créer un RDD, nous pouvons utiliser la méthode parallelize ().

Syntaxe:

Spark_App.étincelle.paralléliser (données)

Où les données peuvent être des données unidimensionnelles (données linéaires) ou bidimensionnelles (données de colonne de ligne).

Pyspark Rdd - Lookup ()

Lookup () est une action dans la paire RDD, qui est utilisée pour renvoyer toutes les valeurs associées à une clé dans une liste. Il est effectué sur une seule paire RDD. Il faut une clé comme paramètre.

Syntaxe:

Rdd_data.recherche (clé)

Paramètre:

La clé fait référence à la clé présente dans la paire RDD.

Exemple:

Dans cet exemple, nous aurons la recherche des touches - Python, JavaScript et Linux.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
# Importer RDD de Pyspark.RDD
de Pyspark.RDD IMPORT RDD
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer 6 - Paires de sujets et de notation
sujets_rating = spark_app.étincelle.Parallélize ([('Python', 4), ('Javascript', 2), ('Linux', 5), ('C #', 4),
('javascript', 4), ('python', 3)])
#actual paire rdd
print ("Pair Rdd:", sujets_rating.collecter())
Recherche #get pour la clé-python
Print ("Recherche pour le Python:", SubjectS_Rating.Lookup ('Python'))
#get Recherche pour la clé-javascript
Print ("Recherche pour le javascript:", sujets_rating.Lookup ('JavaScript'))
Recherche #get pour la clé-linux
Print ("Recherche pour le Linux:", SubjectS_Rating.Lookup ('Linux'))

Sortir:

paire rdd: [('python', 4), ('javascript', 2), ('linux', 5), ('c #', 4), ('javascript', 4), ('python', 3 )]
Recherche pour le Python: [4, 3]
Recherche pour le javascript: [2, 4]
Recherche pour le Linux: [5]

D'après la sortie ci-dessus, nous pouvons voir qu'il y a 2 valeurs qui existent avec Key-Python, donc il a renvoyé 4 et 3. Il y a 2 valeurs qui existent avec le javascript clé, donc il a renvoyé 2 et 4. Il n'y a qu'une seule valeur qui existe avec Key-Linux, donc il est retourné 1.

Pyspark Rdd - collectionAmap ()

collecasmap () est une action dans la paire RDD qui est utilisée pour renvoyer toutes les valeurs sous la forme d'une paire de cartes (clé: valeur). Il est utilisé pour fournir une recherche. Il ne prend aucun paramètre.

Syntaxe:

Rdd_data.collectionAmap ()

Exemple:

Dans cet exemple, nous obtiendrons des valeurs de RDD à l'aide de collectionAmap ().

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
# Importer RDD de Pyspark.RDD
de Pyspark.RDD IMPORT RDD
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer 6 - Paires de sujets et de notation
sujets_rating = spark_app.étincelle.Parallélize ([('Linux', 5), ('C #', 4),
('JavaScript', 4), ('Python', 53)])
#Apply collectionAmap () pour retourner le RDD
imprimer (sujets_rating.collectionAmap ())

Sortir:

'Linux': 5, 'C #': 4, 'Javascript': 4, 'Python': 53

Nous pouvons voir que RDD est renvoyé sous la forme de clé: Paies de valeur.

Notez que s'il y a plusieurs clés avec différentes valeurs, alors collecasmap () s'accusera en renvoyant la valeur mise à jour par rapport à la clé.

Exemple:

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
# Importer RDD de Pyspark.RDD
de Pyspark.RDD IMPORT RDD
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer 6 - Paires de sujets et de notation
sujets_rating = spark_app.étincelle.Parallélize ([('Linux', 5), ('C #', 4), ('javascript', 4),
('Python', 53), ('Linux', 45), ('C #', 44),])
#Apply collectionAmap () pour retourner le RDD
imprimer (sujets_rating.collectionAmap ())

Sortir:

'Linux': 45, 'C #': 44, 'Javascript': 4, 'Python': 53

Nous pouvons voir que les touches Linux et C # se sont produites deux fois. La deuxième fois que les valeurs sont de 45 et 44. Par conséquent, le collecasmap () revient avec les nouvelles valeurs.

Conclusion

Dans ce didacticiel Pyspark RDD, nous avons vu comment appliquer des actions Lookup () et collectionMap () sur la paire RDD. Lookup () est utilisé pour renvoyer les valeurs associées à la clé dans une liste en prenant la clé en tant que paramètre et collecasmap () renvoie le RDD sous la forme de la carte.