Pyspark paire rdd - actions

Pyspark paire rdd - actions
Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark.

RDD signifie ensemble de données distribuées résilientes. Nous pouvons appeler RDD comme une structure de données fondamentale dans Apache Spark. La paire RDD stocke les éléments / valeurs sous la forme de paires de valeurs clés. Il stockera la paire de valeurs de clé dans le format (clé, valeur).

Nous devons importer RDD à partir du pyspark.module RDD.

Dans Pyspark pour créer un RDD, nous pouvons utiliser la méthode parallelize ().

Syntaxe:

Spark_App.étincelle.paralléliser (données)

Où:

Les données peuvent être des données unidimensionnelles (données linéaires) ou bidimensionnelles (données de colonne de ligne).

Actions RDD:

Une action dans RDD est une opération qui est appliquée sur un RDD pour renvoyer une seule valeur. En d'autres termes, nous pouvons dire qu'une action résultera des données fournies en faisant une opération sur le RDD donné.

La paire RDD ne prend en charge qu'une seule action. CountBykey () est l'action utilisée dans la paire RDD.

countbykey ()

Comme nous le savons, la paire RDD a des éléments de paire de valeurs clés. CountBykey est utilisé pour renvoyer chaque clé disponible avec une occurrence totale comme valeur de RDD.

Cela peut être fait en utilisant la méthode des éléments () qui est une méthode de dictionnaire dans Python.

Les éléments () sont utilisés pour extraire les paires de valeurs clés d'un dictionnaire. Les dictionnaires stockent les articles dans une paire de valeurs clés. Donc, la paire RDD est proche du dictionnaire.

Ainsi, cette action countbykey () utilise la méthode des éléments ().

Syntaxe:

Paire_rdd.countbykey ().articles()

Où pair_rdd est la paire rdd.

Il renvoie le nombre de valeurs par clé dans le format - dict_items ([(clé, valeur),…])

Nous pouvons utiliser une boucle pour une boucle pour traverser les touches et les valeurs pour revenir séparément.

Exemple:

Dans cet exemple, nous avons créé une paire RDD nommée sujets_rating avec 6 paires de valeurs de clé et appliqué CountByKey (). Enfin, nous affichons l'action réelle et utilisons une boucle pour.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
# Importer RDD de Pyspark.RDD
de Pyspark.RDD IMPORT RDD
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer 6 - Paires de sujets et de notation
sujets_rating = spark_app.étincelle.Parallélize ([('Python', 4), ('JavaScript', 2), ('Linux', 5), ('C #', 4), ('JavaScript', 4), ('Python', 3) ])
#Apply countbykey () Action sur les sujets ci-dessus
dictionary_rdd = sujets_rating.countbykey ().articles()
#afficher
print ("countbykey () Action sur rdd-subjects_rating:", dictionary_rdd)
#get les clés et les comptes de valeur à partir du dictionnaire RDD ci-dessus
Pour les clés, les valeurs dans Dictionary_RDD:
imprimer (clés, "->", valeurs)

Sortir:

countBykey () Action sur rdd-subjects_rating: dict_items ([('python', 2), ('javascript', 2), ('linux', 1), ('c #', 1)])
Python -> 2
javascript -> 2
Linux -> 1
C # -> 1

Dans la paire RDD,

  1. Key-python s'est produit 2 fois, donc la valeur pour elle est renvoyée 2
  2. Key-Javascript s'est produit 2 fois, donc la valeur pour elle est renvoyée 2
  3. Key-Linux et Key-C # se sont produits 1 fois, donc la valeur pour elle est renvoyée 1

CountByKey () Action avec Keys ()

Si vous avez besoin de retourner uniquement les touches, alors l'action CountByKey () utilise la méthode Keys ().

Syntaxe:

Paire_rdd.countbykey ().clés()

Où pair_rdd est la paire rdd.

Il renvoie le nombre de valeurs par clé dans le format - dict_items ([clé,…])

Nous pouvons utiliser une boucle pour une boucle pour traverser les touches pour revenir séparément.

Exemple:

Dans cet exemple, nous avons créé une paire RDD nommée sujets_rating avec 6 paires de valeurs de clé et appliqué CountByKey () Action pour obtenir uniquement des touches. Enfin, nous affichons l'action réelle et utilisons une boucle pour.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
# Importer RDD de Pyspark.RDD
de Pyspark.RDD IMPORT RDD
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer 6 - Paires de sujets et de notation
sujets_rating = spark_app.étincelle.Parallélize ([('Python', 4), ('JavaScript', 2), ('Linux', 5), ('C #', 4), ('JavaScript', 4), ('Python', 3) ])
#Apply countByKey () Action sur les sujets ci-dessus RDD de la paire
dictionary_rdd = sujets_rating.countbykey ().clés()
#afficher
print ("countbykey () Action sur rdd-subjects_rating:", dictionary_rdd)
#gez les clés du dictionnaire RDD ci-dessus
pour les clés dans Dictionary_Rdd:
imprimer (clés)

Sortir:

countbykey () Action sur rdd-subjects_rating: dict_keys (['python', 'javascript', 'Linux', 'C #'])
python
javascrip
linux
C #

Nous pouvons voir que seule la clé est retournée.

CountByKey () Action avec valeurs ()

Si vous avez besoin de retourner uniquement les valeurs totales par clé, alors CountBykey () Action utilise la méthode VALEUR ().

Syntaxe:

Paire_rdd.countbykey ().valeurs()

Où, pair_rdd est le paire rdd.

Il renvoie le nombre de valeurs par clé dans le format - dict_items ([valeur,…])

Nous pouvons utiliser une boucle pour boucle pour traverser les valeurs à retourner séparément.

Exemple:

Dans cet exemple, nous avons créé une paire RDD nommée sujets_rating avec 6 paires de valeurs de clé et appliqué CountByKey () Action avec valeurs () pour obtenir uniquement des valeurs. Enfin, nous affichons l'action réelle et utilisons une boucle pour.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
# Importer RDD de Pyspark.RDD
de Pyspark.RDD IMPORT RDD
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer 6 - Paires de sujets et de notation
sujets_rating = spark_app.étincelle.Parallélize ([('Python', 4), ('JavaScript', 2), ('Linux', 5), ('C #', 4), ('JavaScript', 4), ('Python', 3) ])
#Apply countbykey () Action sur les sujets ci-dessus sujets_rating paire rdd pour obtenir des valeurs
dictionary_rdd = sujets_rating.countbykey ().valeurs()
#afficher
print ("countbykey () Action sur rdd-subjects_rating:", dictionary_rdd)
#gez les valeurs du dictionnaire RDD ci-dessus
pour les valeurs dans Dictionary_Rdd:
Imprimer (valeurs)

Sortir:

CountByKey () Action sur RDD-SUBJECTS_RATING: DICT_VALUES ([2, 2, 1, 1])
2
2
1
1

Nous pouvons voir que seules les valeurs totales sont renvoyées.

Conclusion

Dans ce didacticiel Pyspark RDD, nous avons vu comment effectuer l'action sur la paire RDD en utilisant CountBykey () Action. Il a utilisé la méthode des éléments () pour retourner les touches disponibles avec une occurrence totale (valeur). Si vous n'avez besoin que d'une clé, vous pouvez utiliser la méthode Keys () avec countbykey () et si vous avez seulement besoin de compter de valeur, avec countbykey (), vous pouvez utiliser des valeurs ().