Pyspark - Pandas DataFrame représente le Pandas DataFrame, mais il contient le Pyspark DataFrame en interne.
Pandas prend en charge la structure des données DataFrame et Pandas est importé du module Pyspark.
Avant cela, vous devez installer le module Pyspark."
Commande
pip install pysparkSyntaxe à importer
De Pyspark Import PandasAprès cela, nous pouvons créer ou utiliser le DataFrame à partir du module Pandas.
Syntaxe pour créer Pandas DataFrame
pyspark.pandas.Trame de données()Nous pouvons passer un dictionnaire ou une liste de listes avec des valeurs.
Créons un Pandas DataFrame via Pyspark avec trois colonnes et cinq lignes.
#Import Pandas du module PysparkSortir
Maintenant, nous allons entrer dans notre tutoriel.
Les opérations cumulatives sont utilisées pour retourner les résultats cumulatifs dans les colonnes du Pyspark Pandas DataFrame.
Voyons-les un par un.
pyspark.pandas.Trame de données.cumsum ()
cumsum () retournera la somme cumulative dans chaque colonne. Il peut être appliqué à l'ensemble du Pyspark Pandas DataFrame ou d'une seule colonne.
Syntaxe
Sur une dataframe entière
pyspark_pandas.cumsum ()Sur une colonne particulière
pyspark_pandas.colonne.cumsum ()Où pyspark_pandas est les pandas pyspark, dataframe et colonne, référez-vous au nom de la colonne.
Exemple 1
Dans cet exemple, nous allons effectuer du cumsum () sur la colonne Mark2.
Sortir
Opération de somme cumulative fonctionnant dans la colonne Mark2
100 = 100Exemple 2
Dans cet exemple, nous allons effectuer du cumsum () sur l'ensemble du Pyspark Pandas DataFrame.
Sortir
On peut voir que la somme cumulative est retournée dans chaque colonne.
pyspark.pandas.Trame de données.Cumprod ()
Cumprod () retournera le produit cumulatif dans chaque colonne. Il peut être appliqué sur l'ensemble du Pyspark Pandas DataFrame ou sur une seule colonne.
Syntaxe
Sur une dataframe entière
pyspark_pandas.Cumprod ()Sur une colonne particulière
pyspark_pandas.colonne.Cumprod ()Où pyspark_pandas est les pandas pyspark, dataframe et colonne, référez-vous au nom de la colonne.
Exemple 1
Dans cet exemple, nous allons effectuer Cumprod () sur la colonne Mark2.
Sortir
Fonctionnement du produit cumulatif travaillant dans la colonne Mark2
100 = 100Exemple 2
Dans cet exemple, nous allons effectuer Cumprod () sur l'ensemble des données Pyspark Pandas.
Sortir
Nous pouvons voir que le produit cumulatif est retourné dans chaque colonne.
pyspark.pandas.Trame de données.Cummin ()
Cummin () renvoie la valeur minimale cumulée dans chaque colonne. Il peut être appliqué sur l'ensemble du Pyspark Pandas DataFrame ou sur une seule colonne.
Syntaxe
Sur une dataframe entière
pyspark_pandas.Cummin ()Sur une colonne particulière
pyspark_pandas.colonne.Cummin ()Où pyspark_pandas est les pandas pyspark, dataframe et colonne, référez-vous au nom de la colonne.
Exemple 1
Dans cet exemple, nous effectuerons Cummin () sur la colonne Mark2.
Sortir
Opération minimale cumulée fonctionnant dans la colonne Mark2
100 = 100Exemple 2
Dans cet exemple, nous effectuerons Cummin () sur l'ensemble du Pyspark Pandas DataFrame.
Sortir
On peut voir que la valeur minimale cumulée est renvoyée dans chaque colonne.
pyspark.pandas.Trame de données.Cummax ()
Cummax () renvoie la valeur maximale cumulée dans chaque colonne. Il peut être appliqué sur l'ensemble du Pyspark Pandas DataFrame ou sur une seule colonne.
Syntaxe
Sur une dataframe entière
pyspark_pandas.Cummax ()Sur une colonne particulière
pyspark_pandas.colonne.Cummax ()Où pyspark_pandas est les pandas pyspark, dataframe et colonne, référez-vous au nom de la colonne.
Exemple 1
Dans cet exemple, nous effectuerons Cummax () sur la colonne Mark2.
Sortir
Fonctionnement maximum cumulé travaillant dans la colonne Mark2
100 = 100Exemple 2
Dans cet exemple, nous allons effectuer Cummax () sur l'ensemble du Pyspark Pandas DataFrame.
Sortir
On peut voir que la valeur maximale cumulée est renvoyée dans chaque colonne.
Conclusion
Dans ce didacticiel Pyspark Pandas, nous avons discuté des opérations cumulatives effectuées sur le Pyspark Pandas DataFrame. cumsum () est utilisé pour retourner la somme cumulative dans chaque colonne, Cumprod () est utilisé pour retourner le produit cumulatif dans chaque colonne, Cummin () est utilisé pour renvoyer la valeur minimale cumulée dans chaque colonne, et Cummax () est utilisé pour retourner la valeur maximale cumulée dans chaque colonne.