La série Pyspark - Pandas représente la série Pandas, mais elle détient la colonne Pyspark en interne.
Pandas Support Series Structure de données et Pandas est importé du module Pyspark.
Avant cela, vous devez installer le module Pyspark."
Commande
pip install pysparkSyntaxe à importer
De Pyspark Import PandasAprès cela, nous pouvons créer ou utiliser la série à partir du module Pandas.
Syntaxe pour créer des séries Pandas
pyspark.pandas.Série()Nous pouvons passer une liste ou une liste de listes avec des valeurs.
Créons une série Pandas via Pyspark qui a cinq valeurs numériques.
#Import Pandas du module PysparkSortir
Maintenant, nous allons entrer dans notre tutoriel.
Les fonctions agrégées sont utilisées pour effectuer des opérations d'agrégation comme SUM (), Min (), Mean () et Max ().Ces opérations ne fonctionnent que sur des données numériques comme entier, double, etc
Voyons-les un par un.
pyspark.pandas.Série.somme()
sum () dans la série Pyspark Pandas est utilisée pour retourner la somme totale.
Syntaxe
pyspark_series.somme()Où Pyspark_Series est la série Pyspark Pandas.
Exemple
Retour Somme de la série Pyspark ci-dessus.
Sortir:
278pyspark.pandas.Série.moyenne()
Mean () dans la série Pyspark Pandas est utilisée pour retourner la moyenne totale.
Syntaxe
pyspark_series.moyenne()Où Pyspark_Series est la série Pyspark Pandas.
Exemple
Retour moyenne de la série Pyspark ci-dessus.
Sortir
55.6pyspark.pandas.Série.min ()
min () dans la série Pyspark Pandas est utilisé pour renvoyer une valeur minimale.
Syntaxe
pyspark_series.min ()Où Pyspark_Series est la série Pyspark Pandas.
Exemple
Renvoie la valeur minimale de la série Pyspark ci-dessus.
Sortir
0pyspark.pandas.Série.Max ()
Max () dans la série Pyspark Pandas est utilisé pour retourner la valeur maximale.
Syntaxe
pyspark_series.Max ()Où Pyspark_Series est la série Pyspark Pandas.
Exemple
Renvoie la valeur maximale de la série Pyspark ci-dessus.
Sortir
90Conclusion
Dans ce didacticiel de la série Pyspark Pandas, nous avons vu quatre fonctions d'agrégation différentes exécutées sur la série. sum () renvoie la somme totale, avg () est utilisé pour renvoyer la moyenne totale, min () est utilisé pour renvoyer la valeur minimale, et max () renvoie la valeur maximale.