Pyspark - Pandas Dataframe Cumulative Operations

Pyspark - Pandas Dataframe Cumulative Operations
«Dans Python, Pyspark est un module Spark qui fournit un type de traitement similaire à Spark à l'aide de DataFrame, qui stockera les données données au format de ligne et de colonne.

Pyspark - Pandas DataFrame représente le Pandas DataFrame, mais il contient le Pyspark DataFrame en interne.

Pandas prend en charge la structure des données DataFrame et Pandas est importé du module Pyspark.

Avant cela, vous devez installer le module Pyspark."

Commande

pip install pyspark

Syntaxe à importer

De Pyspark Import Pandas

Après cela, nous pouvons créer ou utiliser le DataFrame à partir du module Pandas.

Syntaxe pour créer Pandas DataFrame

pyspark.pandas.Trame de données()

Nous pouvons passer un dictionnaire ou une liste de listes avec des valeurs.

Créons un Pandas DataFrame via Pyspark avec trois colonnes et cinq lignes.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('mark1': [90,78,90,54,67], 'mark2': [100,67,96,89,77], 'mark3': [91,92,98,97,87] )
#afficher
imprimer (pyspark_pandas)

Sortir

Maintenant, nous allons entrer dans notre tutoriel.

Les opérations cumulatives sont utilisées pour retourner les résultats cumulatifs dans les colonnes du Pyspark Pandas DataFrame.

Voyons-les un par un.

pyspark.pandas.Trame de données.cumsum ()

cumsum () retournera la somme cumulative dans chaque colonne. Il peut être appliqué à l'ensemble du Pyspark Pandas DataFrame ou d'une seule colonne.

Syntaxe

Sur une dataframe entière

pyspark_pandas.cumsum ()

Sur une colonne particulière

pyspark_pandas.colonne.cumsum ()

Où pyspark_pandas est les pandas pyspark, dataframe et colonne, référez-vous au nom de la colonne.

Exemple 1
Dans cet exemple, nous allons effectuer du cumsum () sur la colonne Mark2.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('mark1': [90,78,90,54,67], 'mark2': [100,67,96,89,77], 'mark3': [91,92,98,97,87] )
#perform cumsum sur la colonne Mark2
imprimer (pyspark_pandas.Marque 2.cumsum ())

Sortir

Opération de somme cumulative fonctionnant dans la colonne Mark2

100 = 100
100 + 67 = 167
100 + 67 + 96 = 263
100 + 67 + 96 + 89 = 352
100 + 67 + 96 + 89 + 77 = 429

Exemple 2
Dans cet exemple, nous allons effectuer du cumsum () sur l'ensemble du Pyspark Pandas DataFrame.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('mark1': [90,78,90,54,67], 'mark2': [100,67,96,89,77], 'mark3': [91,92,98,97,87] )
# PERFORM CUMSUM SUR LE PYSPARK PYSPARK DATAFRAY
imprimer (pyspark_pandas.cumsum ())

Sortir

On peut voir que la somme cumulative est retournée dans chaque colonne.

pyspark.pandas.Trame de données.Cumprod ()

Cumprod () retournera le produit cumulatif dans chaque colonne. Il peut être appliqué sur l'ensemble du Pyspark Pandas DataFrame ou sur une seule colonne.

Syntaxe

Sur une dataframe entière

pyspark_pandas.Cumprod ()

Sur une colonne particulière

pyspark_pandas.colonne.Cumprod ()

Où pyspark_pandas est les pandas pyspark, dataframe et colonne, référez-vous au nom de la colonne.

Exemple 1
Dans cet exemple, nous allons effectuer Cumprod () sur la colonne Mark2.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('mark1': [90,78,90,54,67], 'mark2': [100,67,96,89,77], 'mark3': [91,92,98,97,87] )
#Perform Cumprod sur entier Pyspark Pandas DataFrame
imprimer (pyspark_pandas.Cumprod ())

Sortir

Fonctionnement du produit cumulatif travaillant dans la colonne Mark2

100 = 100
100 * 67 = 6700
100 * 67 * 96 = 643200
100 * 67 * 96 * 89 = 57244800
100 * 67 * 96 * 89 * 77 = 4407849600

Exemple 2
Dans cet exemple, nous allons effectuer Cumprod () sur l'ensemble des données Pyspark Pandas.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('mark1': [90,78,90,54,67], 'mark2': [100,67,96,89,77], 'mark3': [91,92,98,97,87] )
#Perform Cummin sur la colonne Mark2
imprimer (pyspark_pandas.Marque 2.Cummin ())

Sortir

Nous pouvons voir que le produit cumulatif est retourné dans chaque colonne.

pyspark.pandas.Trame de données.Cummin ()

Cummin () renvoie la valeur minimale cumulée dans chaque colonne. Il peut être appliqué sur l'ensemble du Pyspark Pandas DataFrame ou sur une seule colonne.

Syntaxe

Sur une dataframe entière

pyspark_pandas.Cummin ()

Sur une colonne particulière

pyspark_pandas.colonne.Cummin ()

Où pyspark_pandas est les pandas pyspark, dataframe et colonne, référez-vous au nom de la colonne.

Exemple 1
Dans cet exemple, nous effectuerons Cummin () sur la colonne Mark2.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('mark1': [90,78,90,54,67], 'mark2': [100,67,96,89,77], 'mark3': [91,92,98,97,87] )
#Perform Cummin sur entier Pyspark Pandas DataFrame
imprimer (pyspark_pandas.Cummin ())

Sortir

Opération minimale cumulée fonctionnant dans la colonne Mark2

100 = 100
min (100,67) = 67
min (100,67,96) = 67
min (100,67,96,89) = 67
min (100,67,96,89,77) = 67

Exemple 2
Dans cet exemple, nous effectuerons Cummin () sur l'ensemble du Pyspark Pandas DataFrame.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('mark1': [90,78,90,54,67], 'mark2': [100,67,96,89,77], 'mark3': [91,92,98,97,87] )
#Perform Cummax sur la colonne Mark2
imprimer (pyspark_pandas.Marque 2.Cummax ())

Sortir

On peut voir que la valeur minimale cumulée est renvoyée dans chaque colonne.

pyspark.pandas.Trame de données.Cummax ()

Cummax () renvoie la valeur maximale cumulée dans chaque colonne. Il peut être appliqué sur l'ensemble du Pyspark Pandas DataFrame ou sur une seule colonne.

Syntaxe

Sur une dataframe entière

pyspark_pandas.Cummax ()

Sur une colonne particulière

pyspark_pandas.colonne.Cummax ()

Où pyspark_pandas est les pandas pyspark, dataframe et colonne, référez-vous au nom de la colonne.

Exemple 1
Dans cet exemple, nous effectuerons Cummax () sur la colonne Mark2.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('mark1': [90,78,90,54,67], 'mark2': [100,67,96,89,77], 'mark3': [91,92,98,97,87] )
#Perform Cummax sur la colonne Mark2
imprimer (pyspark_pandas.Marque 2.Cummax ())

Sortir

Fonctionnement maximum cumulé travaillant dans la colonne Mark2

100 = 100
max (100,67) = 100
max (100,67,96) = 100
max (100,67,96,89) = 100
max (100,67,96,89,77) = 100

Exemple 2
Dans cet exemple, nous allons effectuer Cummax () sur l'ensemble du Pyspark Pandas DataFrame.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('mark1': [90,78,90,54,67], 'mark2': [100,67,96,89,77], 'mark3': [91,92,98,97,87] )
#Perform Cummax sur entier Pyspark Pandas DataFrame
imprimer (pyspark_pandas.Cummax ())

Sortir

On peut voir que la valeur maximale cumulée est renvoyée dans chaque colonne.

Conclusion

Dans ce didacticiel Pyspark Pandas, nous avons discuté des opérations cumulatives effectuées sur le Pyspark Pandas DataFrame. cumsum () est utilisé pour retourner la somme cumulative dans chaque colonne, Cumprod () est utilisé pour retourner le produit cumulatif dans chaque colonne, Cummin () est utilisé pour renvoyer la valeur minimale cumulée dans chaque colonne, et Cummax () est utilisé pour retourner la valeur maximale cumulée dans chaque colonne.