Pyspark desc_nulls_first et desc_nulls_last

Pyspark desc_nulls_first et desc_nulls_last
Si vous souhaitez trier les valeurs dans une colonne dans le pyspark dataframe ayant des nuls dans l'ordre décroissant, alors vous pouvez aller avec les fonctions desc_nulls_first () et desc_nulls_last ().

Avant de discuter de ces fonctions, nous créerons un exemple de pyspark dataframe.

Données

Importer Pyspark
de Pyspark.SQL IMPORT SPARKSESSE
Spark_App = Sparkcession.constructeur.nom de l'application('_').getorCreate ()
étudiants = [(4, «sravan», 23 ans, aucun, aucun),
(4, «Chandana», 23, «CSS», «Pyspark»),
(46, «Mounika», 22 ans, aucun, '.FILET'),
(4, «Deepika», 21, «html», aucun),
]]
dataframe_obj = spark_app.CreatedataFrame (étudiants, [«sujet_id», «nom», «âge», «technologie1», «technologie2»])
dataframe_obj.montrer()


Sortir:


Maintenant, il y a 5 colonnes et 4 rangées.

Fonction DESC_NULLS_FIRST ()

La fonction desc_nulls_first () trie les valeurs dans une colonne dans l'ordre descendant, mais il placera les valeurs nulles existantes dans une colonne.

Il peut être utilisé avec la méthode select () pour sélectionner les colonnes commandées. Il est très important d'utiliser la fonction OrderBy () car l'essentiel ici est le tri.OrderBy () prend la fonction desc_nulls_first () comme un paramètre.

Syntaxe

dataframe_obj.SELECT (DATAFRAME_OBJ.colonne).orderBy (dataframe_obj.colonne.desc_nulls_
d'abord())


Lorsque DataFrame_OBJ est le dataframe et la colonne est le nom de colonne dans lequel les valeurs sont triées, toutes les valeurs nulles seront placées en premier.

Donc, notre dataframe est prêt. Voyons la fonction desc_nulls_first ().

Exemple 1

Maintenant, nous allons trier les valeurs de la colonne Technology1 qui a des valeurs nul / nuls dans l'ordre descendant en utilisant la fonction desc_nulls_first ().

#Sort La colonne Technology1 en ordre décroissant et obtenez d'abord les valeurs nulles.
dataframe_obj.SELECT (DATAFRAME_OBJ.Technologie1).orderBy (dataframe_obj.Technologie1.desc_
nulls_first ()).montrer()


Sortir:


En fait, il y a deux valeurs nulles. Tout d'abord, ils sont placés, et plus tard HTML et CSS sont triés par ordre décroissant.

Exemple 2

Maintenant, nous allons trier les valeurs de la colonne Technology2 qui a des valeurs nul / nuls dans l'ordre descendant en utilisant la fonction desc_nulls_first ().

#Sort La colonne Technology2 en ordre décroissant et obtenez d'abord les valeurs nulles.
dataframe_obj.SELECT (DATAFRAME_OBJ.Technologie2).orderBy (dataframe_obj.Technologie2.desc_
nulls_first ()).montrer()


Sortir:


En fait, il y a deux valeurs nulles. Tout d'abord, ils sont placés et plus tard, Pyspark et .Le net est trié par ordre décroissant.

DESC_NULLS_LAST () Fonction

La fonction desc_nulls_last () trie les valeurs dans une colonne dans l'ordre descendant, mais il placera les valeurs nulles existantes dans une colonne.

Il peut être utilisé avec la méthode select () pour sélectionner les colonnes commandées. Il est très important d'utiliser OrderBy () parce que l'essentiel ici est le genre.OrderBy () prend desc_nulls_first () en tant que paramètre.

Syntaxe

dataframe_obj.SELECT (DATAFRAME_OBJ.colonne).orderBy (dataframe_obj.colonne.desc_nulls_
dernier())


Où, dataframe_obj est le dataframe et la colonne est le nom de colonne dans lequel les valeurs sont triées de telle sorte que toutes les valeurs nulles seront placées comme dernier.

Donc, notre dataframe est prêt. Voyons la fonction desc_nulls_last ().

Exemple 1

Maintenant, nous allons trier les valeurs de la colonne Technology2 avec des valeurs Aucune / NULL dans l'ordre descendant en utilisant la fonction desc_nulls_last ().

#Sort La colonne Technology1 en ordre décroissant et obtenez les valeurs nulles en dernier.
dataframe_obj.SELECT (DATAFRAME_OBJ.Technologie1).orderBy (dataframe_obj.Technologie1.desc_
nulls_last ()).montrer()


Sortir:


En fait, il y a deux valeurs nulles. Premièrement, HTML et CSS sont triés par ordre décroissant, et deux valeurs nulles sont placées en dernier.

Exemple 2

Maintenant, nous allons trier les valeurs de la colonne Technology2 qui a des valeurs aucune / nuls dans l'ordre décroissant à l'aide de la fonction desc_nulls_last ().

#Sort La colonne Technology2 en ordre décroissant et obtenez les valeurs nulles en dernier.
Dataframe_obj.SELECT (DATAFRAME_OBJ.Technologie2).orderBy (dataframe_obj.Technologie2.desc_
nulls_last ()).montrer()


Sortir:


En fait, il y a deux valeurs nulles. D'abord, .Net et Pyspark sont triés par ordre décroissant, et deux valeurs nulles sont placées en dernier.

Code global

Importer Pyspark
de Pyspark.SQL IMPORT SPARKSESSE
Spark_App = Sparkcession.constructeur.nom de l'application('_').getorCreate ()
étudiants = [(4, «sravan», 23 ans, aucun, aucun),
(4, «Chandana», 23, «CSS», «Pyspark»),
(46, «Mounika», 22 ans, aucun, '.FILET'),
(4, «Deepika», 21, «html», aucun),
]]
dataframe_obj = spark_app.CreatedataFrame (étudiants, [«sujet_id», «nom», «âge», «technologie1», «technologie2»])
dataframe_obj.montrer()
#Sort La colonne Technology1 en ordre décroissant et obtenez d'abord les valeurs nulles.
dataframe_obj.SELECT (DATAFRAME_OBJ.Technologie1).orderBy (dataframe_obj.Technologie1.desc_
nulls_first ()).montrer()
#Sort La colonne Technology2 en ordre décroissant et obtenez d'abord les valeurs nulles.
dataframe_obj.SELECT (DATAFRAME_OBJ.Technologie2).orderBy (dataframe_obj.Technologie2.desc_
nulls_first ()).montrer()
#Sort La colonne Technology1 en ordre décroissant et obtenez les valeurs nulles en dernier.
dataframe_obj.SELECT (DATAFRAME_OBJ.Technologie1).orderBy (dataframe_obj.Technologie1.desc_
nulls_last ()).montrer()
#Sort La colonne Technology1 en ordre décroissant et obtenez les valeurs nulles en dernier.
dataframe_obj.SELECT (DATAFRAME_OBJ.Technologie1).orderBy (dataframe_obj.Technologie1.desc_
nulls_last ()).montrer()

Conclusion

À la fin de ce didacticiel Pyspark, nous avons appris qu'il est possible de gérer NULL tout en triant les valeurs dans un DataFrame en utilisant les fonctions DESC_NULLS_FIRST () et desc_nulls_last (). La fonction desc_nulls_first () trie les valeurs dans une colonne dans l'ordre descendant, mais il organisera d'abord les valeurs nulles existantes dans une colonne. La fonction desc_nulls_last () trie les valeurs dans une colonne dans l'ordre décroissant, mais il organisera les valeurs nulles existantes dans une colonne en dernier. Vous pouvez exécuter l'intégralité du code spécifié dans la dernière partie du tutoriel.