Tout d'abord, nous voyons comment partitionner le DataFrame dans Pyspark.
Cloison
Il est possible de partitionner les lignes dans le dataframe à l'aide de la fonction de fenêtre. Il est disponible dans le pyspark.SQL.fenêtre module. Il y aura deux étapes pour partitionner les lignes dans un pyspark dataframe.
Pas:
Syntaxe:
partition = fenêtre.partitionby («colonne»)Nous pouvons commander les données partitionnées avec la colonne partitionnée ou toute autre colonne.
Créons le dataframe.
Exemple:
Ici, nous créons un pyspark dataframe qui a 5 colonnes - [«sujet_id», «nom», «âge», «technologie1», «technologie2»] avec 10 lignes.
Importer PysparkSortir:
Fonction de fenêtre Pyspark min ()
La fonction min () dans la fenêtre est utilisée pour renvoyer la valeur minimale dans chaque partition. Il peut être possible de renvoyer une valeur minimale après le partitionnement du dataframe.
Syntaxe:
dataframe_obj.withColumn ("minimum", min (col ("colonne")).sur (partition))Paramètre:
min (col ("colonne"))Ici, la fonction min () prend le nom de la colonne comme paramètre. Il renvoie le minimum de valeurs dans cette colonne dans chaque partition.
Nous ajoutons le résultat dans une colonne nommée Minimum à l'aide de la fonction WithColumn ().
Exemple 1:
Maintenant, nous avons un dataframe (créé précédemment). Levons-le en fonction de la colonne Technology1 et obtenons la valeur minimale de la colonne Subject_ID dans chaque partition.
# Importer la fonction de fenêtreSortir:
Explication:
Le nombre total de partitions est 4.
Partition 1:
Le .Le filet s'est produit deux fois dans la première partition. La valeur minimale dans la colonne Subject_ID est 46.
Partition 2:
Hadoop s'est produit une fois dans la deuxième partition. Ainsi, la valeur minimale est de 12.
Partition 3:
Oracle s'est produit quatre fois dans la troisième partition.
La valeur minimale dans la colonne Subject_ID est 4.
Partition 4:
PHP s'est produit trois fois dans la quatrième partition.
La valeur minimale dans la colonne Subject_ID est 4.
Exemple 2:
Maintenant, nous avons un dataframe (créé précédemment). Levons-le en fonction de la colonne Technology1 et obtenons la valeur minimale de la colonne d'âge dans chaque partition.
# Importer la fonction de fenêtreSortir:
Explication:
Le nombre total de partitions est 4.
Partition 1:
Le .Le filet s'est produit deux fois dans la première partition. La valeur minimale dans la colonne d'âge est de 22.
Partition 2:
Hadoop s'est produit une fois dans la deuxième partition. La valeur minimale est de 22.
Partition 3:
Oracle s'est produit quatre fois dans la troisième partition.
La valeur minimale dans la colonne d'âge est de 21.
Partition 4:
PHP s'est produit trois fois dans la quatrième partition.
La valeur minimale dans la colonne d'âge est de 21.
Fonction de fenêtre Pyspark Max ()
La fonction max () dans la fenêtre est utilisée pour renvoyer la valeur maximale dans chaque partition. Il peut être possible de renvoyer une valeur maximale après le partitionnement du dataframe.
Syntaxe:
dataframe_obj.WithColumn ("Maximum", max (col ("colonne")).sur (partition))Paramètre:
max (col ("colonne"))Ici, la fonction max () prend le nom de la colonne comme paramètre. Il renvoie le maximum de valeurs dans cette colonne dans chaque partition.
Nous ajoutons le résultat dans une colonne nommée maximum à l'aide de la fonction WithColumn ().
Exemple 1:
Maintenant, nous avons un dataframe (créé précédemment). Letons-le en fonction de la colonne Technology1 et obtenez la valeur maximale de la colonne Subject_ID dans chaque partition.
# Importer la fonction de fenêtreSortir:
Explication:
Le nombre total de partitions est 4.
Partition 1:
Le .Le filet s'est produit deux fois dans la première partition. La valeur maximale dans la colonne Subject_ID est 46.
Partition 2:
Hadoop s'est produit une fois dans la deuxième partition. Ainsi, la valeur maximale est de 12.
Partition 3:
Oracle s'est produit quatre fois dans la troisième partition.
La valeur maximale dans la colonne Subject_ID est 46.
Partition 4:
PHP s'est produit trois fois dans la quatrième partition.
La valeur maximale dans la colonne Subject_ID est 4.
Exemple 2:
Maintenant, nous avons un dataframe (créé précédemment). Letons-le en fonction de la colonne Technology1 et obtenons la valeur maximale de la colonne d'âge dans chaque partition.
# Importer la fonction de fenêtreSortir:
Explication:
Le nombre total de partitions est 4.
Partition 1:
Le .Le filet s'est produit deux fois dans la première partition. La valeur maximale dans la colonne d'âge est de 22.
Partition 2:
Hadoop s'est produit une fois dans la deuxième partition. Ainsi, la valeur maximale est de 22.
Partition 3:
Oracle s'est produit quatre fois dans la troisième partition.
La valeur maximale dans la colonne d'âge est de 23.
Partition 4:
PHP s'est produit trois fois dans la quatrième partition.
La valeur maximale dans la colonne d'âge est de 23.
Conclusion
Dans ce didacticiel de partitionnement Pyspark, nous avons appris à renvoyer les valeurs minimales dans chaque fenêtre partitionnée en utilisant la fonction min () et les valeurs maximales dans chaque fenêtre partitionnée à l'aide de la fonction max (). Nous avons ajouté le résultat au DataFrame existant en tant que nouvelle colonne. Assurez-vous que vous devez importer le min et le max du pyspark.SQL.module de fonctions.