Pyspark - Fonctions agrégées de la série Pandas

Pyspark - Fonctions agrégées de la série Pandas
«Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark en utilisant les séries, qui stockera les données données dans un tableau (colonne à Pyspark en interne).

La série Pyspark - Pandas représente la série Pandas, mais elle détient la colonne Pyspark en interne.

Pandas Support Series Structure de données et Pandas est importé du module Pyspark.

Avant cela, vous devez installer le module Pyspark."

Commande

pip install pyspark

Syntaxe à importer

De Pyspark Import Pandas

Après cela, nous pouvons créer ou utiliser la série à partir du module Pandas.

Syntaxe pour créer des séries Pandas

pyspark.pandas.Série()

Nous pouvons passer une liste ou une liste de listes avec des valeurs.

Créons une série Pandas via Pyspark qui a cinq valeurs numériques.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
Série #Create avec 5 éléments
pyspark_series = pandas.Série ([90,56,78,54,0])
imprimer (pyspark_series)

Sortir

Maintenant, nous allons entrer dans notre tutoriel.

Les fonctions agrégées sont utilisées pour effectuer des opérations d'agrégation comme SUM (), Min (), Mean () et Max ().Ces opérations ne fonctionnent que sur des données numériques comme entier, double, etc

Voyons-les un par un.

pyspark.pandas.Série.somme()

sum () dans la série Pyspark Pandas est utilisée pour retourner la somme totale.

Syntaxe

pyspark_series.somme()

Où Pyspark_Series est la série Pyspark Pandas.

Exemple
Retour Somme de la série Pyspark ci-dessus.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
Série #Create avec 5 éléments
pyspark_series = pandas.Série ([90,56,78,54,0])
#return Sum
imprimer (pyspark_series.somme())

Sortir:

278
Fonctionnement:
90 + 56 + 78 + 54 + 0 = 278.

pyspark.pandas.Série.moyenne()

Mean () dans la série Pyspark Pandas est utilisée pour retourner la moyenne totale.

Syntaxe

pyspark_series.moyenne()

Où Pyspark_Series est la série Pyspark Pandas.

Exemple
Retour moyenne de la série Pyspark ci-dessus.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
Série #Create avec 5 éléments
pyspark_series = pandas.Série ([90,56,78,54,0])
#return moyen
imprimer (pyspark_series.moyenne())

Sortir

55.6
Fonctionnement:
(90 + 56 + 78 + 54 + 0) / 5 = 55.6.

pyspark.pandas.Série.min ()

min () dans la série Pyspark Pandas est utilisé pour renvoyer une valeur minimale.

Syntaxe

pyspark_series.min ()

Où Pyspark_Series est la série Pyspark Pandas.

Exemple
Renvoie la valeur minimale de la série Pyspark ci-dessus.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
Série #Create avec 5 éléments
pyspark_series = pandas.Série ([90,56,78,54,0])
#return minimum
imprimer (pyspark_series.min ())

Sortir

0
Fonctionnement:
minimum (90 + 56 + 78 + 54 + 0) = 0

pyspark.pandas.Série.Max ()

Max () dans la série Pyspark Pandas est utilisé pour retourner la valeur maximale.

Syntaxe

pyspark_series.Max ()

Où Pyspark_Series est la série Pyspark Pandas.

Exemple
Renvoie la valeur maximale de la série Pyspark ci-dessus.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
Série #Create avec 5 éléments
pyspark_series = pandas.Série ([90,56,78,54,0])
#return maximum
imprimer (pyspark_series.max ())

Sortir

90
Fonctionnement:
Maximum (90 + 56 + 78 + 54 + 0) = 90

Conclusion

Dans ce didacticiel de la série Pyspark Pandas, nous avons vu quatre fonctions d'agrégation différentes exécutées sur la série. sum () renvoie la somme totale, avg () est utilisé pour renvoyer la moyenne totale, min () est utilisé pour renvoyer la valeur minimale, et max () renvoie la valeur maximale.