Pyspark pandas dataframe groupby

Julien Dumas

«Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark à l'aide de DataFrame, qui stockera les données données au format de ligne et de colonne.

Pyspark - Pandas DataFrame représente le Pandas DataFrame, mais il contient le Pyspark DataFrame en interne.

Pandas prend en charge la structure des données DataFrame et Pandas est importé du module Pyspark.

Avant cela, vous devez installer le module Pyspark."

Commande

pip install pyspark

Syntaxe à importer

De Pyspark Import Pandas

Après cela, nous pouvons créer ou utiliser le DataFrame à partir du module Pandas.

Syntaxe pour créer Pandas DataFrame

pyspark.pandas.Trame de données()

Nous pouvons passer un dictionnaire ou une liste de listes avec des valeurs.

Créons un Pandas DataFrame via Pyspark qui a quatre colonnes et cinq lignes.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('S_name': ['Ram', 'Sukanya', 'Sumita', 'Sumita', 'Ram'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], «Mark3»: [91,92,98,97,87])
imprimer (pyspark_pandas)

Sortir

Maintenant, nous allons entrer dans notre tutoriel.

GroupBy () est utilisé pour regrouper les lignes similaires dans le Pyspark Pandas DataFrame. Après le regroupement, nous pouvons effectuer des opérations statistiques comme moyen (), sum (), min () et max (). Nous verrons un par un avec groupby ().

pyspark.pandas.Trame de données.groupby () avec moyen ()

GroupBy () est utilisé pour regrouper les lignes similaires dans le Pyspark Pandas DataFrame et renvoyer les valeurs moyennes pour chaque ligne groupée.

Syntaxe

pyspark_pandas.groupby ([colonne / s]).moyenne()

Où,

Pyspark_pandas est le pyspark pandas dataframe
la colonne est le nom de colonne dans lequel des valeurs similaires sont regroupées dans cette colonne

Exemple
Dans cet exemple, nous retournerons la moyenne totale des données formées à partir d'une colonne de groupe - S_NAME.

Sortir

Nous pouvons voir qu'il y a deux lignes similaires.

RAM - 2 valeurs sont groupées
Sumita - 2 valeurs sont groupées
sukanya - 1 valeur est groupée

Après cela, la moyenne totale pour les trois colonnes a été retournée.

pyspark.pandas.Trame de données.groupby () avec sum ()

GroupBy () est utilisé pour regrouper les lignes similaires dans le Pyspark Pandas DataFrame et renvoyer la somme totale pour chaque ligne groupée.

Syntaxe

pyspark_pandas.groupby ([colonne / s]).somme()

Où,

Pyspark_pandas est le pyspark pandas dataframe
la colonne est le nom de colonne dans lequel des valeurs similaires sont regroupées dans cette colonne

Exemple
Dans cet exemple, nous retournerons la somme totale des données formées à partir d'une colonne de groupe - S_NAME.

Sortir

Nous pouvons voir qu'il y a deux lignes similaires.

RAM - 2 valeurs sont groupées
Sumita - 2 valeurs sont groupées
sukanya - 1 valeur est groupée

Après cela, la somme totale pour les trois colonnes a été retournée.

pyspark.pandas.Trame de données.groupby () avec min ()

GroupBy () est utilisé pour regrouper les lignes similaires dans le Pyspark Pandas DataFrame et renvoyer la valeur minimale pour chaque ligne groupée.

Syntaxe

pyspark_pandas.groupby ([colonne / s]).min ()

Où,

Pyspark_pandas est le pyspark pandas dataframe
la colonne est le nom de colonne dans lequel des valeurs similaires sont regroupées dans cette colonne

Exemple
Dans cet exemple, nous retournerons le minimum de données formées à partir d'une colonne de groupe - S_NAME.

Sortir

Nous pouvons voir qu'il y a deux lignes similaires.

RAM - 2 valeurs sont groupées
Sumita - 2 valeurs sont groupées
sukanya - 1 valeur est groupée

Après cela, la valeur minimale est retournée pour les trois colonnes.

pyspark.pandas.Trame de données.groupby () avec max ()

GroupBy () est utilisé pour regrouper les lignes similaires dans le Pyspark Pandas DataFrame et renvoyer la valeur maximale pour chaque ligne groupée.

Syntaxe

pyspark_pandas.groupby ([colonne / s]).Max ()

Où,

Pyspark_pandas est le pyspark pandas dataframe
la colonne est le nom de colonne dans lequel des valeurs similaires sont regroupées dans cette colonne

Exemple
Dans cet exemple, nous retournerons le maximum de données formées à partir d'une colonne de groupe - S_NAME.

Sortir

Nous pouvons voir qu'il y a deux lignes similaires.

RAM - 2 valeurs sont groupées
Sumita - 2 valeurs sont groupées
sukanya - 1 valeur est groupée

Après cela, la valeur maximale est retournée pour les trois colonnes.

Conclusion

Dans ce didacticiel Pyspark Pandas DataFrame GroupBy (), nous voyons ce qu'est Groupby et comment appliquer GroupBy () avec des fonctions statistiques comme Mean (), Min (), Max () et Sum ().

Salesforce

Chargeur de données Salesforce

Tutoriel sur la façon d'insérer, de supprimer et de mettre à jour les données Salesforce, et comment...

Nathan Blanc

Commandes Linux

Comment installer la version de Cuda sur Linux

Tutoriel complet sur la façon de découvrir les versions de CUDA qui sont prises en charge par les pi...

Julien Dumas

Docker

Plugins moteur Docker

Les plugins de moteur Docker peuvent être utilisés de différentes manières, comme l'installation, la...

Ethan Guillot