Pyspark - Pandas DataFrame représente le Pandas DataFrame, mais il contient le Pyspark DataFrame en interne.
Pandas prend en charge la structure des données DataFrame et Pandas est importé du module Pyspark.
Avant cela, vous devez installer le module Pyspark."
Commande
pip install pysparkSyntaxe à importer
De Pyspark Import PandasAprès cela, nous pouvons créer ou utiliser le DataFrame à partir du module Pandas.
Syntaxe pour créer Pandas DataFrame
pyspark.pandas.Trame de données()Nous pouvons passer un dictionnaire ou une liste de listes avec des valeurs.
Créons un Pandas DataFrame via Pyspark qui a quatre colonnes et cinq lignes.
#Import Pandas du module PysparkSortir
Maintenant, nous allons entrer dans notre tutoriel.
GroupBy () est utilisé pour regrouper les lignes similaires dans le Pyspark Pandas DataFrame. Après le regroupement, nous pouvons effectuer des opérations statistiques comme moyen (), sum (), min () et max (). Nous verrons un par un avec groupby ().
pyspark.pandas.Trame de données.groupby () avec moyen ()
GroupBy () est utilisé pour regrouper les lignes similaires dans le Pyspark Pandas DataFrame et renvoyer les valeurs moyennes pour chaque ligne groupée.
Syntaxe
pyspark_pandas.groupby ([colonne / s]).moyenne()Où,
Exemple
Dans cet exemple, nous retournerons la moyenne totale des données formées à partir d'une colonne de groupe - S_NAME.
Sortir
Nous pouvons voir qu'il y a deux lignes similaires.
Après cela, la moyenne totale pour les trois colonnes a été retournée.
pyspark.pandas.Trame de données.groupby () avec sum ()
GroupBy () est utilisé pour regrouper les lignes similaires dans le Pyspark Pandas DataFrame et renvoyer la somme totale pour chaque ligne groupée.
Syntaxe
pyspark_pandas.groupby ([colonne / s]).somme()Où,
Exemple
Dans cet exemple, nous retournerons la somme totale des données formées à partir d'une colonne de groupe - S_NAME.
Sortir
Nous pouvons voir qu'il y a deux lignes similaires.
Après cela, la somme totale pour les trois colonnes a été retournée.
pyspark.pandas.Trame de données.groupby () avec min ()
GroupBy () est utilisé pour regrouper les lignes similaires dans le Pyspark Pandas DataFrame et renvoyer la valeur minimale pour chaque ligne groupée.
Syntaxe
pyspark_pandas.groupby ([colonne / s]).min ()Où,
Exemple
Dans cet exemple, nous retournerons le minimum de données formées à partir d'une colonne de groupe - S_NAME.
Sortir
Nous pouvons voir qu'il y a deux lignes similaires.
Après cela, la valeur minimale est retournée pour les trois colonnes.
pyspark.pandas.Trame de données.groupby () avec max ()
GroupBy () est utilisé pour regrouper les lignes similaires dans le Pyspark Pandas DataFrame et renvoyer la valeur maximale pour chaque ligne groupée.
Syntaxe
pyspark_pandas.groupby ([colonne / s]).Max ()Où,
Exemple
Dans cet exemple, nous retournerons le maximum de données formées à partir d'une colonne de groupe - S_NAME.
Sortir
Nous pouvons voir qu'il y a deux lignes similaires.
Après cela, la valeur maximale est retournée pour les trois colonnes.
Conclusion
Dans ce didacticiel Pyspark Pandas DataFrame GroupBy (), nous voyons ce qu'est Groupby et comment appliquer GroupBy () avec des fonctions statistiques comme Mean (), Min (), Max () et Sum ().