Pyspark - Pandas DataFrame représente le Pandas DataFrame, mais il contient le Pyspark DataFrame en interne.
Pandas prend en charge la structure des données DataFrame et Pandas est importé du module Pyspark.
Avant cela, vous devez installer le module Pyspark."
Commande
pip install pysparkSyntaxe à importer
De Pyspark Import PandasAprès cela, nous pouvons créer ou utiliser le DataFrame à partir du module Pandas.
Syntaxe pour créer Pandas DataFrame
pyspark.pandas.Trame de données()Nous pouvons passer un dictionnaire ou une liste de listes avec des valeurs.
Créons un Pandas DataFrame via Pyspark avec quatre colonnes et cinq lignes.
#Import Pandas du module PysparkSortir
Maintenant, nous allons entrer dans notre tutoriel.
Les fonctions agrégées sont utilisées pour effectuer des opérations d'agrégation comme SUM (), Min (), Mean () et Max ().Ces opérations ne fonctionnent que sur des données numériques comme entier, double etc.
Voyons-les un par un.
pyspark.pandas.Trame de données.somme()
sum () dans le pyspark pandas dataframe est utilisé pour renvoyer la somme totale sur les lignes et les colonnes.
Si vous souhaitez renvoyer la somme sur chaque ligne, vous devez spécifier l'axe = 1, et si vous souhaitez renvoyer la somme sur chaque colonne, vous devez spécifier l'axe = 0. Par défaut, il effectuera une colonne en termes de colonne.
Syntaxe
pyspark_pandas.sum (axe = 0 / axe = 1)Où pyspark_pandas est le pyspark pandas dataframe.
Paramètre
Il ne prend qu'un seul paramètre.
Axis-0 spécifie le calcul de la colonne et l'axe = 1 spécifie le calcul en ligne.
Exemple 1
Dans cet exemple, nous retournerons la somme totale sur chaque ligne.
Sortir
0 281Nous pouvons voir que l'opération de somme est effectuée sur chaque ligne.
Comme, première rangée - 90 + 100 + 91 = 281.
Exemple 2
Dans cet exemple, nous retournerons la somme totale sur chaque colonne.
Sortir
Mark1 379On peut voir que l'opération de somme est effectuée sur chaque colonne.
Comme, pour la colonne Mark1 - 90 + 78 + 90 + 54 + 67 = 379.
pyspark.pandas.Trame de données.moyenne()
Mean () dans le Pyspark Pandas DataFrame est utilisé pour renvoyer la moyenne totale sur les lignes et les colonnes.
Si vous souhaitez renvoyer la moyenne sur chaque ligne, vous devez spécifier l'axe = 1, et si vous souhaitez retourner la moyenne sur chaque colonne, vous devez spécifier l'axe = 0. Par défaut, il effectuera une colonne en termes de colonne.
Syntaxe
pyspark_pandas.moyenne (axe = 0 / axe = 1)Où pyspark_pandas est le pyspark pandas dataframe.
Paramètre
Il ne prend qu'un seul paramètre.
Axis-0 spécifie le calcul de la colonne et l'axe = 1 spécifie le calcul en ligne.
Exemple 1
Dans cet exemple, nous retournerons la moyenne totale sur chaque ligne.
Sortir
0 93.666667On peut voir que l'opération moyenne est effectuée sur chaque ligne.
Comme, première ligne - (90 + 100 + 91) / 3 = 93.666667
Exemple 2
Dans cet exemple, nous retournerons la moyenne totale dans chaque colonne.
Sortir
Mark1 75.8Nous pouvons voir que l'opération moyenne est effectuée dans chaque colonne.
Comme, pour la colonne Mark1 - (90 + 78 + 90 + 54 + 67) / 5 = 75.8.
pyspark.pandas.Trame de données.min ()
min () dans pyspark pandas dataframe est utilisé pour une valeur minimale sur les lignes et les colonnes.
Si vous souhaitez renvoyer la valeur minimale sur chaque ligne, vous devez spécifier l'axe = 1, et si vous souhaitez renvoyer le minimum sur chaque colonne, vous devez spécifier l'axe = 0. Par défaut, il effectuera une colonne en termes de colonne.
Syntaxe
pyspark_pandas.min (axe = 0 / axe = 1)Où pyspark_pandas est le pyspark pandas dataframe.
Paramètre
Il ne prend qu'un seul paramètre.
Axis-0 spécifie le calcul de la colonne et l'axe = 1 spécifie le calcul en ligne.
Exemple 1
Dans cet exemple, nous retournerons la valeur minimale sur chaque ligne.
Sortir
0 90On peut voir que l'agrégation min () est effectuée sur chaque ligne.
Comme, première rangée - minimum (90,100,91) = 90
Exemple 2
Dans cet exemple, nous retournerons la valeur minimale sur chaque colonne.
Sortir
Mark1 54On peut voir que l'agrégation min () est effectuée sur chaque colonne.
Comme, pour la colonne Mark1 - min (90,78,90,54,67) = 54.
pyspark.pandas.Trame de données.Max ()
Max () dans le Pyspark Pandas DataFrame est utilisé pour une valeur maximale sur les lignes et les colonnes.
Si vous souhaitez renvoyer la valeur maximale sur chaque ligne, vous devez spécifier l'axe = 1, et si vous souhaitez renvoyer le maximum sur chaque colonne, vous devez spécifier l'axe = 0. Par défaut, il effectuera une colonne en termes de colonne.
Syntaxe
pyspark_pandas.max (axe = 0 / axe = 1)Où pyspark_pandas est le pyspark pandas dataframe.
Paramètre
Il ne prend qu'un seul paramètre.
Axis-0 spécifie le calcul de la colonne et l'axe = 1 spécifie le calcul en ligne.
Exemple 1
Dans cet exemple, nous retournerons la valeur maximale sur chaque ligne.
Sortir
0 100On peut voir que l'agrégation max () est effectuée sur chaque ligne.
Comme, première rangée - maximum (90,100,91) = 100
Exemple 2
Dans cet exemple, nous retournerons la valeur maximale sur chaque colonne.
Sortir
Mark1 90On peut voir que l'agrégation max () est effectuée sur chaque colonne.
Comme pour la colonne Mark1 - Max (90,78,90,54,67) = 90.
Conclusion
Dans ce didacticiel Pyspark Pandas Dataframe, nous avons vu quatre fonctions d'agrégation différentes effectuées sur DataFrame. Il est possible de calculer sur la ligne et le niveau de la colonne avec les paramètres de l'axe. sum () va renvoyer la somme totale, avg () est utilisé pour renvoyer la moyenne totale, min () est utilisé pour renvoyer une valeur minimale et max () renvoie la valeur maximale.