RDD signifie ensemble de données distribuées résilientes. Nous pouvons appeler RDD comme une structure de données fondamentale dans Apache Spark.
Nous devons importer RDD à partir du pyspark.module RDD.
Dans Pyspark pour créer un RDD, nous pouvons utiliser la méthode parallelize ().
Syntaxe:
Spark_App.étincelle.paralléliser (données)Où:
Les données peuvent être une dimension (données linéaires) ou des données bidimensionnelles (données en row-colonne).
Dans ce didacticiel Pyspark RDD, nous verrons comment effectuer différentes fonctions d'agrégation sur Pyspark RDD.
1. somme()
sum () est utilisé pour renvoyer la valeur totale (somme) dans le RDD. Il ne prend aucun paramètre.
Syntaxe:
Rdd_data.somme()Exemple:
Dans cet exemple, nous créons un RDD nommé Student_marks avec 20 éléments et retournons la somme des éléments totaux d'un RDD.
# importer le module PysparkSortir:
1112À partir de la sortie ci-dessus, nous pouvons voir que la somme totale des éléments dans RDD est 1112.
2. min ()
min () est utilisé pour renvoyer la valeur minimale du RDD. Il ne prend aucun paramètre.
Syntaxe:
Rdd_data.min ()Exemple:
Dans cet exemple, nous créons un RDD nommé Student_marks avec 20 éléments et renvoyons la valeur minimale d'un RDD.
# importer le module PysparkSortir:
21À partir de la sortie ci-dessus, nous pouvons voir que la valeur minimale dans RDD est de 21.
3. Max ()
Max () est utilisé pour renvoyer la valeur maximale du RDD. Il ne prend aucun paramètre.
Syntaxe:
Rdd_data.Max ()Exemple:
Dans cet exemple, nous créons un RDD nommé Student_marks avec 20 éléments et renvoyons la valeur maximale d'un RDD.
# importer le module PysparkSortir
100À partir de la sortie ci-dessus, nous pouvons voir que la valeur maximale dans RDD est de 100.
moyenne()
moyenne () est utilisée pour retourner la valeur moyenne (moyenne) dans le RDD. Il ne prend aucun paramètre.
Syntaxe:
Rdd_data.moyenne()Exemple:
Dans cet exemple, nous créons un RDD nommé Student_marks avec 20 éléments et renvoyons la moyenne des éléments d'un RDD.
# importer le module PysparkSortir
55.6À partir de la sortie ci-dessus, nous pouvons voir que la valeur moyenne de RDD est de 55.6.
compter()
count () est utilisé pour renvoyer les valeurs totales présentes dans le RDD. Il ne prend aucun paramètre.
Syntaxe:
Rdd_data.compter()Exemple:
Dans cet exemple, nous créons un RDD nommé Student_marks avec 20 éléments et renvoyons le compte d'éléments dans un RDD.
# importer le module PysparkSortir
20À partir de la sortie ci-dessus, nous pouvons voir que le nombre total de valeurs dans RDD est de 20.
Conclusion
Dans ce tutoriel Pyspark, nous avons vu cinq opérations d'agrégation différentes effectuées sur RDD. sum () est utilisé pour retourner la valeur totale dans un RDD. moyenne () est utilisée pour retourner la moyenne totale d'un RDD. min () et max () sont utilisés pour renvoyer des valeurs minimales et maximales. Si vous devez retourner le nombre total d'éléments présents dans un RDD, vous pouvez utiliser la fonction Count ().