Pyspark RDD - fonctions agrégées

Pyspark RDD - fonctions agrégées
Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark.

RDD signifie ensemble de données distribuées résilientes. Nous pouvons appeler RDD comme une structure de données fondamentale dans Apache Spark.

Nous devons importer RDD à partir du pyspark.module RDD.

Dans Pyspark pour créer un RDD, nous pouvons utiliser la méthode parallelize ().

Syntaxe:

Spark_App.étincelle.paralléliser (données)

Où:

Les données peuvent être une dimension (données linéaires) ou des données bidimensionnelles (données en row-colonne).

Dans ce didacticiel Pyspark RDD, nous verrons comment effectuer différentes fonctions d'agrégation sur Pyspark RDD.

1. somme()

sum () est utilisé pour renvoyer la valeur totale (somme) dans le RDD. Il ne prend aucun paramètre.

Syntaxe:

Rdd_data.somme()

Exemple:

Dans cet exemple, nous créons un RDD nommé Student_marks avec 20 éléments et retournons la somme des éléments totaux d'un RDD.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
# Importer RDD de Pyspark.RDD
de Pyspark.RDD IMPORT RDD
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données sur les étudiants avec 20 éléments
Student_marks = Spark_App.étincelle.Parallélize ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,
78,21,34,34,56,34])
#Perform sum () opération
Imprimer (Student_marks.somme())

Sortir:

1112

À partir de la sortie ci-dessus, nous pouvons voir que la somme totale des éléments dans RDD est 1112.

2. min ()

min () est utilisé pour renvoyer la valeur minimale du RDD. Il ne prend aucun paramètre.

Syntaxe:

Rdd_data.min ()

Exemple:

Dans cet exemple, nous créons un RDD nommé Student_marks avec 20 éléments et renvoyons la valeur minimale d'un RDD.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
# Importer RDD de Pyspark.RDD
de Pyspark.RDD IMPORT RDD
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données sur les étudiants avec 20 éléments
Student_marks = Spark_App.étincelle.Parallélize ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,78,
21,34,34,56,34])
#Perform min () opération
Imprimer (Student_marks.min ())

Sortir:

21

À partir de la sortie ci-dessus, nous pouvons voir que la valeur minimale dans RDD est de 21.

3. Max ()

Max () est utilisé pour renvoyer la valeur maximale du RDD. Il ne prend aucun paramètre.

Syntaxe:

Rdd_data.Max ()

Exemple:

Dans cet exemple, nous créons un RDD nommé Student_marks avec 20 éléments et renvoyons la valeur maximale d'un RDD.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
# Importer RDD de Pyspark.RDD
de Pyspark.RDD IMPORT RDD
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données sur les étudiants avec 20 éléments
Student_marks = Spark_App.étincelle.Parallélize ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,78,
21,34,34,56,34])
#Perform max () opération
Imprimer (Student_marks.max ())

Sortir

100

À partir de la sortie ci-dessus, nous pouvons voir que la valeur maximale dans RDD est de 100.

moyenne()

moyenne () est utilisée pour retourner la valeur moyenne (moyenne) dans le RDD. Il ne prend aucun paramètre.

Syntaxe:

Rdd_data.moyenne()

Exemple:

Dans cet exemple, nous créons un RDD nommé Student_marks avec 20 éléments et renvoyons la moyenne des éléments d'un RDD.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
# Importer RDD de Pyspark.RDD
de Pyspark.RDD IMPORT RDD
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données sur les étudiants avec 20 éléments
Student_marks = Spark_App.étincelle.Parallélize ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,
78,21,34,34,56,34])
#Perform mean () opération
Imprimer (Student_marks.moyenne())

Sortir

55.6

À partir de la sortie ci-dessus, nous pouvons voir que la valeur moyenne de RDD est de 55.6.

compter()

count () est utilisé pour renvoyer les valeurs totales présentes dans le RDD. Il ne prend aucun paramètre.

Syntaxe:

Rdd_data.compter()

Exemple:

Dans cet exemple, nous créons un RDD nommé Student_marks avec 20 éléments et renvoyons le compte d'éléments dans un RDD.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
# Importer RDD de Pyspark.RDD
de Pyspark.RDD IMPORT RDD
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données sur les étudiants avec 20 éléments
Student_marks = Spark_App.étincelle.Parallélize ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,
78,21,34,34,56,34])
Opération #Perform Count ()
Imprimer (Student_marks.compter())

Sortir

20

À partir de la sortie ci-dessus, nous pouvons voir que le nombre total de valeurs dans RDD est de 20.

Conclusion

Dans ce tutoriel Pyspark, nous avons vu cinq opérations d'agrégation différentes effectuées sur RDD. sum () est utilisé pour retourner la valeur totale dans un RDD. moyenne () est utilisée pour retourner la moyenne totale d'un RDD. min () et max () sont utilisés pour renvoyer des valeurs minimales et maximales. Si vous devez retourner le nombre total d'éléments présents dans un RDD, vous pouvez utiliser la fonction Count ().