Avant de discuter de ces fonctions, nous créerons un exemple de pyspark dataframe.
Données
Importer Pyspark
de Pyspark.SQL IMPORT SPARKSESSE
Spark_App = Sparkcession.constructeur.nom de l'application('_').getorCreate ()
étudiants = [(4, «sravan», 23 ans, aucun, aucun),
(4, «Chandana», 23, «CSS», «Pyspark»),
(46, «Mounika», 22 ans, aucun, '.FILET'),
(4, «Deepika», 21, «html», aucun),
]]
dataframe_obj = spark_app.CreatedataFrame (étudiants, [«sujet_id», «nom», «âge», «technologie1», «technologie2»])
dataframe_obj.montrer()
Sortir:
Maintenant, il y a 5 colonnes et 4 rangées.
Fonction ASC_NULLS_FIRST ()
La fonction ASC_NULLS_FIRST () trie les valeurs dans une colonne dans l'ordre croissant, mais il placera d'abord les valeurs nulles existantes dans une colonne.
Il peut être utilisé avec la méthode select () pour sélectionner les colonnes commandées. Il est très important d'utiliser OrderBy () parce que l'essentiel est de trier.OrderBy () et prend ASC_NULLS_FIRST () en tant que paramètre.
Syntaxe
dataframe_obj.SELECT (DATAFRAME_OBJ.colonne).orderBy (dataframe_obj.colonne.asc_nulls_
d'abord())
Lorsque DataFrame_OBJ est le dataframe et la colonne est le nom de colonne dans lequel les valeurs sont triées, toutes les valeurs nulles seront placées en premier.
Donc, notre dataframe est prêt. Voyons la fonction ASC_NULLS_FIRST ().
Exemple 1
Maintenant, nous allons trier les valeurs dans la colonne Technology1 avec des valeurs non / null dans l'ordre croissant en utilisant la fonction ASC_NULLS_FIRST ().
#Sort La colonne Technology1 dans l'ordre croissant et obtenez d'abord les valeurs nulles.
dataframe_obj.SELECT (DATAFRAME_OBJ.Technologie1).orderBy (dataframe_obj.Technologie1.asc_
nulls_first ()).montrer()
Sortir:
En fait, il y a deux valeurs nulles. Tout d'abord, ils sont placés, et plus tard, CSS et HTML sont triés par ordre croissant.
Exemple 2
Maintenant, nous allons trier les valeurs de la colonne Technology2 qui a des valeurs aucune / nuls dans l'ordre croissant à l'aide de la fonction ASC_NULLS_FIRST ().
#Sort La colonne Technology2 en ordre croissant et obtenez d'abord les valeurs nulles.
Dataframe_obj.SELECT (DATAFRAME_OBJ.Technologie2).orderBy (dataframe_obj.Technologie2.asc_
nulls_first ()).montrer()
Sortir:
En fait, il y a deux valeurs nulles. Premièrement, ils sont placés, et plus tard, .Net et Pyspark sont triés par ordre croissant.
Fonction ASC_NULLS_LAST ()
La fonction ASC_NULLS_LAST () trie les valeurs dans une colonne dans l'ordre croissant, mais il placera les valeurs nulles existantes dans une colonne en dernier.
Il peut être utilisé avec la méthode select () pour sélectionner les colonnes commandées. Il est très important d'utiliser OrderBy () parce que l'essentiel est de trier.orderBy () car il prend ASC_NULLS_FIRST () en tant que paramètre.
Syntaxe
dataframe_obj.SELECT (DATAFRAME_OBJ.colonne).orderBy (dataframe_obj.colonne.asc_nulls_last ())
Où dataframe_obj est le dataframe et la colonne est le nom de colonne dans lequel les valeurs sont triées, toutes les valeurs nulles seront enfin placées.
Donc, notre dataframe est prêt. Voyons la fonction ASC_NULLS_LAST ().
Exemple 1
Maintenant, nous allons trier les valeurs de la colonne Technology2 qui a des valeurs nul / nuls dans l'ordre croissant à l'aide de la fonction ASC_NULLS_LAST ().
#Sort La colonne Technology1 dans l'ordre croissant et obtenez les valeurs nulles en dernier.
dataframe_obj.SELECT (DATAFRAME_OBJ.Technologie1).orderBy (dataframe_obj.Technologie1.asc_
nulls_last ()).montrer()
Sortir:
En fait, il y a deux valeurs nulles. Premièrement, CSS et HTML sont triés par ordre croissant, et deux valeurs nulles sont placées en dernier.
Exemple 2
Maintenant, nous allons trier les valeurs de la colonne Technology2 qui a des valeurs nul / nuls dans l'ordre croissant à l'aide de la fonction ASC_NULLS_LAST ().
#Sort La colonne Technology2 dans l'ordre croissant et obtenez les valeurs nulles en dernier.
dataframe_obj.SELECT (DATAFRAME_OBJ.Technologie2).orderBy (dataframe_obj.Technologie2.asc_
nulls_last ()).montrer()
Sortir:
En fait, il y a deux valeurs nulles. D'abord, .Net et Pyspark sont triés par ordre croissant et deux valeurs nulles sont placées en dernier.
Code global
Importer Pyspark
de Pyspark.SQL IMPORT SPARKSESSE
Spark_App = Sparkcession.constructeur.nom de l'application('_').getorCreate ()
étudiants = [(4, «sravan», 23 ans, aucun, aucun),
(4, «Chandana», 23, «CSS», «Pyspark»),
(46, «Mounika», 22 ans, aucun, '.FILET'),
(4, «Deepika», 21, «html», aucun),
]]
dataframe_obj = spark_app.CreatedataFrame (étudiants, [«sujet_id», «nom», «âge», «technologie1», «technologie2»])
dataframe_obj.montrer()
#Sort La colonne Technology1 dans l'ordre croissant et obtenez d'abord les valeurs nulles.
dataframe_obj.SELECT (DATAFRAME_OBJ.Technologie1).orderBy (dataframe_obj.Technologie1.asc_
nulls_first ()).montrer()
#Sort La colonne Technology2 en ordre croissant et obtenez d'abord les valeurs nulles.
dataframe_obj.SELECT (DATAFRAME_OBJ.Technologie2).orderBy (dataframe_obj.Technologie2.asc_
nulls_first ()).montrer()
#Sort La colonne Technology1 dans l'ordre croissant et obtenez les valeurs nulles en dernier.
dataframe_obj.SELECT (DATAFRAME_OBJ.Technologie1).orderBy (dataframe_obj.Technologie1.asc_
nulls_last ()).montrer()
#Sort La colonne Technology2 dans l'ordre croissant et obtenez les valeurs nulles en dernier.
dataframe_obj.SELECT (DATAFRAME_OBJ.Technologie2).orderBy (dataframe_obj.Technologie2.asc_
nulls_last ()).montrer()
Conclusion
À la fin de ce didacticiel Pyspark, nous avons appris qu'il est possible de gérer NULL tout en triant les valeurs dans un DataFrame à l'aide des fonctions ASC_NULLS_FIRST () et ASC_NULLS_LAST (). La fonction ASC_NULLS_FIRST () trie les valeurs dans une colonne dans l'ordre croissant, mais il placera d'abord les valeurs nulles existantes dans une colonne. La fonction ASC_NULLS_LAST () trie les valeurs dans une colonne dans l'ordre croissant, mais il placera les valeurs nulles existantes dans une colonne en dernier. Vous pouvez exécuter l'intégralité du code spécifié dans la dernière partie du tutoriel.