Pyspark - Fonctions agrégées de Pandas DataFrame

Pyspark - Fonctions agrégées de Pandas DataFrame
«Dans Python, Pyspark est un module Spark qui fournit un type de traitement similaire comme Spark à l'aide de DataFrame, qui stockera les données données au format de ligne et de colonne.

Pyspark - Pandas DataFrame représente le Pandas DataFrame, mais il contient le Pyspark DataFrame en interne.

Pandas prend en charge la structure des données DataFrame et Pandas est importé du module Pyspark.

Avant cela, vous devez installer le module Pyspark."

Commande

pip install pyspark

Syntaxe à importer

De Pyspark Import Pandas

Après cela, nous pouvons créer ou utiliser le DataFrame à partir du module Pandas.

Syntaxe pour créer Pandas DataFrame

pyspark.pandas.Trame de données()

Nous pouvons passer un dictionnaire ou une liste de listes avec des valeurs.

Créons un Pandas DataFrame via Pyspark avec quatre colonnes et cinq lignes.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [[90,78,90,54,67], 'Mark2': [[ 100,67,96,89,77], «Mark3»: [91,92,98,97,87])
#afficher
imprimer (pyspark_pandas)

Sortir

Maintenant, nous allons entrer dans notre tutoriel.

Les fonctions agrégées sont utilisées pour effectuer des opérations d'agrégation comme SUM (), Min (), Mean () et Max ().Ces opérations ne fonctionnent que sur des données numériques comme entier, double etc.

Voyons-les un par un.

pyspark.pandas.Trame de données.somme()

sum () dans le pyspark pandas dataframe est utilisé pour renvoyer la somme totale sur les lignes et les colonnes.

Si vous souhaitez renvoyer la somme sur chaque ligne, vous devez spécifier l'axe = 1, et si vous souhaitez renvoyer la somme sur chaque colonne, vous devez spécifier l'axe = 0. Par défaut, il effectuera une colonne en termes de colonne.

Syntaxe

pyspark_pandas.sum (axe = 0 / axe = 1)

Où pyspark_pandas est le pyspark pandas dataframe.

Paramètre
Il ne prend qu'un seul paramètre.

Axis-0 spécifie le calcul de la colonne et l'axe = 1 spécifie le calcul en ligne.

Exemple 1
Dans cet exemple, nous retournerons la somme totale sur chaque ligne.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [[90,78,90,54,67], 'Mark2': [[ 100,67,96,89,77], «Mark3»: [91,92,98,97,87])
#Perform sum () Aggrégation Operation Row Wise
imprimer (pyspark_pandas.somme (axe = 1))

Sortir

0 281
1 237
2 284
3 240
4 231
DTYPE: INT64

Nous pouvons voir que l'opération de somme est effectuée sur chaque ligne.

Comme, première rangée - 90 + 100 + 91 = 281.

Exemple 2
Dans cet exemple, nous retournerons la somme totale sur chaque colonne.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [[90,78,90,54,67], 'Mark2': [[ 100,67,96,89,77], «Mark3»: [91,92,98,97,87])
#Perform sum () Operation d'agrégation Colonne Wise

Sortir

Mark1 379
Mark2 429
Mark3 465
DTYPE: INT64

On peut voir que l'opération de somme est effectuée sur chaque colonne.

Comme, pour la colonne Mark1 - 90 + 78 + 90 + 54 + 67 = 379.

pyspark.pandas.Trame de données.moyenne()

Mean () dans le Pyspark Pandas DataFrame est utilisé pour renvoyer la moyenne totale sur les lignes et les colonnes.

Si vous souhaitez renvoyer la moyenne sur chaque ligne, vous devez spécifier l'axe = 1, et si vous souhaitez retourner la moyenne sur chaque colonne, vous devez spécifier l'axe = 0. Par défaut, il effectuera une colonne en termes de colonne.

Syntaxe

pyspark_pandas.moyenne (axe = 0 / axe = 1)

Où pyspark_pandas est le pyspark pandas dataframe.

Paramètre

Il ne prend qu'un seul paramètre.

Axis-0 spécifie le calcul de la colonne et l'axe = 1 spécifie le calcul en ligne.

Exemple 1
Dans cet exemple, nous retournerons la moyenne totale sur chaque ligne.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [[90,78,90,54,67], 'Mark2': [[ 100,67,96,89,77], «Mark3»: [91,92,98,97,87])
#perform mean () Aggrégation Operation Row Wise
imprimer (pyspark_pandas.moyenne (axe = 1))

Sortir

0 93.666667
1 79.000000
2 94.666667
3 80.000000
4 77.000000
dtype: float64

On peut voir que l'opération moyenne est effectuée sur chaque ligne.

Comme, première ligne - (90 + 100 + 91) / 3 = 93.666667

Exemple 2
Dans cet exemple, nous retournerons la moyenne totale dans chaque colonne.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [[90,78,90,54,67], 'Mark2': [[ 100,67,96,89,77], «Mark3»: [91,92,98,97,87])
#Perform mean () Aggrégation Operation Colonne Wise
imprimer (pyspark_pandas.moyenne (axe = 0))

Sortir

Mark1 75.8
Mark2 85.8
Mark3 93.0
dtype: float64

Nous pouvons voir que l'opération moyenne est effectuée dans chaque colonne.

Comme, pour la colonne Mark1 - (90 + 78 + 90 + 54 + 67) / 5 = 75.8.

pyspark.pandas.Trame de données.min ()

min () dans pyspark pandas dataframe est utilisé pour une valeur minimale sur les lignes et les colonnes.

Si vous souhaitez renvoyer la valeur minimale sur chaque ligne, vous devez spécifier l'axe = 1, et si vous souhaitez renvoyer le minimum sur chaque colonne, vous devez spécifier l'axe = 0. Par défaut, il effectuera une colonne en termes de colonne.

Syntaxe

pyspark_pandas.min (axe = 0 / axe = 1)

Où pyspark_pandas est le pyspark pandas dataframe.

Paramètre
Il ne prend qu'un seul paramètre.

Axis-0 spécifie le calcul de la colonne et l'axe = 1 spécifie le calcul en ligne.

Exemple 1
Dans cet exemple, nous retournerons la valeur minimale sur chaque ligne.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [[90,78,90,54,67], 'Mark2': [[ 100,67,96,89,77], «Mark3»: [91,92,98,97,87])
#Perform min () Aggrégation Operation Row Wise
imprimer (pyspark_pandas.min (axe = 1))

Sortir

0 90
1 67
2 90
3 54
4 67
DTYPE: INT64

On peut voir que l'agrégation min () est effectuée sur chaque ligne.

Comme, première rangée - minimum (90,100,91) = 90

Exemple 2
Dans cet exemple, nous retournerons la valeur minimale sur chaque colonne.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [[90,78,90,54,67], 'Mark2': [[ 100,67,96,89,77], «Mark3»: [91,92,98,97,87])
#Perform min () Aggrégation Operation Colonne Wise
imprimer (pyspark_pandas.min (axe = 0))

Sortir

Mark1 54
Mark2 67
Mark3 87
DTYPE: INT64

On peut voir que l'agrégation min () est effectuée sur chaque colonne.

Comme, pour la colonne Mark1 - min (90,78,90,54,67) = 54.

pyspark.pandas.Trame de données.Max ()

Max () dans le Pyspark Pandas DataFrame est utilisé pour une valeur maximale sur les lignes et les colonnes.

Si vous souhaitez renvoyer la valeur maximale sur chaque ligne, vous devez spécifier l'axe = 1, et si vous souhaitez renvoyer le maximum sur chaque colonne, vous devez spécifier l'axe = 0. Par défaut, il effectuera une colonne en termes de colonne.

Syntaxe

pyspark_pandas.max (axe = 0 / axe = 1)

Où pyspark_pandas est le pyspark pandas dataframe.

Paramètre
Il ne prend qu'un seul paramètre.

Axis-0 spécifie le calcul de la colonne et l'axe = 1 spécifie le calcul en ligne.

Exemple 1
Dans cet exemple, nous retournerons la valeur maximale sur chaque ligne.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [[90,78,90,54,67], 'Mark2': [[ 100,67,96,89,77], «Mark3»: [91,92,98,97,87])
#Perform max () Aggrégation Operation Row Wise
imprimer (pyspark_pandas.max (axe = 1))

Sortir

0 100
1 92
2 98
3 97
4 87
DTYPE: INT64

On peut voir que l'agrégation max () est effectuée sur chaque ligne.

Comme, première rangée - maximum (90,100,91) = 100

Exemple 2
Dans cet exemple, nous retournerons la valeur maximale sur chaque colonne.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [[90,78,90,54,67], 'Mark2': [[ 100,67,96,89,77], «Mark3»: [91,92,98,97,87])
#Perform max () Aggrégation Operation Colonne Wise
imprimer (pyspark_pandas.max (axe = 0))

Sortir

Mark1 90
Mark2 100
Mark3 98
DTYPE: INT64

On peut voir que l'agrégation max () est effectuée sur chaque colonne.

Comme pour la colonne Mark1 - Max (90,78,90,54,67) = 90.

Conclusion

Dans ce didacticiel Pyspark Pandas Dataframe, nous avons vu quatre fonctions d'agrégation différentes effectuées sur DataFrame. Il est possible de calculer sur la ligne et le niveau de la colonne avec les paramètres de l'axe. sum () va renvoyer la somme totale, avg () est utilisé pour renvoyer la moyenne totale, min () est utilisé pour renvoyer une valeur minimale et max () renvoie la valeur maximale.