Pyspark pandas dataframe groupby

Pyspark pandas dataframe groupby
«Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark à l'aide de DataFrame, qui stockera les données données au format de ligne et de colonne.

Pyspark - Pandas DataFrame représente le Pandas DataFrame, mais il contient le Pyspark DataFrame en interne.

Pandas prend en charge la structure des données DataFrame et Pandas est importé du module Pyspark.

Avant cela, vous devez installer le module Pyspark."

Commande

pip install pyspark

Syntaxe à importer

De Pyspark Import Pandas

Après cela, nous pouvons créer ou utiliser le DataFrame à partir du module Pandas.

Syntaxe pour créer Pandas DataFrame

pyspark.pandas.Trame de données()

Nous pouvons passer un dictionnaire ou une liste de listes avec des valeurs.

Créons un Pandas DataFrame via Pyspark qui a quatre colonnes et cinq lignes.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('S_name': ['Ram', 'Sukanya', 'Sumita', 'Sumita', 'Ram'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], «Mark3»: [91,92,98,97,87])
imprimer (pyspark_pandas)

Sortir

Maintenant, nous allons entrer dans notre tutoriel.

GroupBy () est utilisé pour regrouper les lignes similaires dans le Pyspark Pandas DataFrame. Après le regroupement, nous pouvons effectuer des opérations statistiques comme moyen (), sum (), min () et max (). Nous verrons un par un avec groupby ().

pyspark.pandas.Trame de données.groupby () avec moyen ()

GroupBy () est utilisé pour regrouper les lignes similaires dans le Pyspark Pandas DataFrame et renvoyer les valeurs moyennes pour chaque ligne groupée.

Syntaxe

pyspark_pandas.groupby ([colonne / s]).moyenne()

Où,

  1. Pyspark_pandas est le pyspark pandas dataframe
  2. la colonne est le nom de colonne dans lequel des valeurs similaires sont regroupées dans cette colonne

Exemple
Dans cet exemple, nous retournerons la moyenne totale des données formées à partir d'une colonne de groupe - S_NAME.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('S_name': ['Ram', 'Sukanya', 'Sumita', 'Sumita', 'Ram'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], «Mark3»: [91,92,98,97,87])
#Group par S_NAME et RETOUR MOTEUR MAISON DES ROWS GRABLES
imprimer (pyspark_pandas.groupby (['s_name']).moyenne())

Sortir

Nous pouvons voir qu'il y a deux lignes similaires.

  1. RAM - 2 valeurs sont groupées
  2. Sumita - 2 valeurs sont groupées
  3. sukanya - 1 valeur est groupée

Après cela, la moyenne totale pour les trois colonnes a été retournée.

pyspark.pandas.Trame de données.groupby () avec sum ()

GroupBy () est utilisé pour regrouper les lignes similaires dans le Pyspark Pandas DataFrame et renvoyer la somme totale pour chaque ligne groupée.

Syntaxe

pyspark_pandas.groupby ([colonne / s]).somme()

Où,

  1. Pyspark_pandas est le pyspark pandas dataframe
  2. la colonne est le nom de colonne dans lequel des valeurs similaires sont regroupées dans cette colonne

Exemple
Dans cet exemple, nous retournerons la somme totale des données formées à partir d'une colonne de groupe - S_NAME.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('S_name': ['Ram', 'Sukanya', 'Sumita', 'Sumita', 'Ram'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], «Mark3»: [91,92,98,97,87])
#Group par S_Name et Retour Somme des marques des lignes groupées
imprimer (pyspark_pandas.groupby (['s_name']).somme())

Sortir

Nous pouvons voir qu'il y a deux lignes similaires.

  1. RAM - 2 valeurs sont groupées
  2. Sumita - 2 valeurs sont groupées
  3. sukanya - 1 valeur est groupée

Après cela, la somme totale pour les trois colonnes a été retournée.

pyspark.pandas.Trame de données.groupby () avec min ()

GroupBy () est utilisé pour regrouper les lignes similaires dans le Pyspark Pandas DataFrame et renvoyer la valeur minimale pour chaque ligne groupée.

Syntaxe

pyspark_pandas.groupby ([colonne / s]).min ()

Où,

  1. Pyspark_pandas est le pyspark pandas dataframe
  2. la colonne est le nom de colonne dans lequel des valeurs similaires sont regroupées dans cette colonne

Exemple
Dans cet exemple, nous retournerons le minimum de données formées à partir d'une colonne de groupe - S_NAME.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('S_name': ['Ram', 'Sukanya', 'Sumita', 'Sumita', 'Ram'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], «Mark3»: [91,92,98,97,87])
#Group par S_NAME et retour des marques minimales des lignes groupées
imprimer (pyspark_pandas.groupby (['s_name']).min ())

Sortir

Nous pouvons voir qu'il y a deux lignes similaires.

  1. RAM - 2 valeurs sont groupées
  2. Sumita - 2 valeurs sont groupées
  3. sukanya - 1 valeur est groupée

Après cela, la valeur minimale est retournée pour les trois colonnes.

pyspark.pandas.Trame de données.groupby () avec max ()

GroupBy () est utilisé pour regrouper les lignes similaires dans le Pyspark Pandas DataFrame et renvoyer la valeur maximale pour chaque ligne groupée.

Syntaxe

pyspark_pandas.groupby ([colonne / s]).Max ()

Où,

  1. Pyspark_pandas est le pyspark pandas dataframe
  2. la colonne est le nom de colonne dans lequel des valeurs similaires sont regroupées dans cette colonne

Exemple
Dans cet exemple, nous retournerons le maximum de données formées à partir d'une colonne de groupe - S_NAME.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('S_name': ['Ram', 'Sukanya', 'Sumita', 'Sumita', 'Ram'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], «Mark3»: [91,92,98,97,87])
#Group par S_NAME et retour des marques maximales des lignes groupées
imprimer (pyspark_pandas.groupby (['s_name']).max ())

Sortir

Nous pouvons voir qu'il y a deux lignes similaires.

  1. RAM - 2 valeurs sont groupées
  2. Sumita - 2 valeurs sont groupées
  3. sukanya - 1 valeur est groupée

Après cela, la valeur maximale est retournée pour les trois colonnes.

Conclusion

Dans ce didacticiel Pyspark Pandas DataFrame GroupBy (), nous voyons ce qu'est Groupby et comment appliquer GroupBy () avec des fonctions statistiques comme Mean (), Min (), Max () et Sum ().