Pyspark - ASC & DESC

Pyspark - ASC & DESC

Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark en utilisant DataFrame. Créons un pyspark dataframe.

Exemple:

Dans cet exemple, nous allons créer le Pyspark DataFrame avec 5 lignes et 6 colonnes et afficher en utilisant la méthode Show ().

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17,
'adresse': 'patna',
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#display dataframe
df.montrer()

Sortir:

Pyspark - ASC ()

Dans Pyspark, ASC () est utilisé pour organiser les lignes dans l'ordre croissant dans le dataframe.

Il renverra le nouveau DataFrame en organisant les lignes dans le dataframe existant. Il est utilisé avec les fonctions tri () ou orderBy ().

Méthode - 1: Utilisation de l'ASC () avec la fonction col

Ici, nous utilisons les fonctions OrderBy () ou Sort () pour trier le Pyspark DataFrame en fonction des colonnes dans l'ordre croissant. Nous devons spécifier les noms / s de colonnes à l'intérieur de la fonction OrderBy () / Sort () via la fonction col. Nous devons importer cette fonction à partir de pyspark.SQL.module de fonctions. Ceci est utilisé pour lire une colonne à partir du pyspark dataframe.

Syntaxe:

trame de données.OrderBy (col ("Column_name").asc (),…, col («colonnel_name»).asc ())
trame de données.Soi (col ("Column_name").asc (),…, col («colonnel_name»).asc ())

Ici,

  1. DataFrame est l'entrée Pyspark DataFrame.
  2. Column_name est la colonne où le tri est appliqué via la fonction col.

Exemple:

Dans cet exemple, nous allons trier le dataframe dans l'ordre croissant en fonction des colonnes d'adresse et d'âge avec les fonctions OrderBy () et Sort () et afficher la méthode de données triée à l'aide de la méthode Collect ().

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LA FONCTION COL
de Pyspark.SQL.Fonctions Import Col
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17,
'adresse': 'patna',
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
# trier le dataframe en fonction des colonnes d'adresse et d'âge
# et afficher le framage de données trié
Imprimer (DF.OrderBy (col ("adresse").asc (), col ("âge").asc ()).collecter())
imprimer()
Imprimer (DF.Trier (col ("adresse").asc (), col ("âge").asc ()).collecter())

Sortir:

[Row (adresse = 'guntur', âge = 23, hauteur = 5.79, name = 'sravan', rollno = '001', poids = 67),
Ligne (adresse = 'hyd', âge = 9, hauteur = 3.69, name = 'rohith', rollno = '004', poids = 28),
Ligne (adresse = 'hyd', âge = 16, hauteur = 3.79, name = 'ojaswi', rollno = '002', poids = 34),
Ligne (adresse = 'hyd', âge = 37, hauteur = 5.59, name = 'sridevi', rollno = '005', poids = 54),
Ligne (adresse = 'patna', âge = 7, hauteur = 2.79, name = 'gnanesh chowdary', rollno = '003', poids = 17)]
[Row (adresse = 'guntur', âge = 23, hauteur = 5.79, name = 'sravan', rollno = '001', poids = 67),
Ligne (adresse = 'hyd', âge = 9, hauteur = 3.69, name = 'rohith', rollno = '004', poids = 28),
Ligne (adresse = 'hyd', âge = 16, hauteur = 3.79, name = 'ojaswi', rollno = '002', poids = 34),
Ligne (adresse = 'hyd', âge = 37, hauteur = 5.59, name = 'sridevi', rollno = '005', poids = 54),
Ligne (adresse = 'patna', âge = 7, hauteur = 2.79, name = 'gnanesh chowdary', rollno = '003', poids = 17)]

Méthode - 2: Utilisation de l'ASC () avec l'étiquette DataFrame

Ici, nous utilisons les fonctions OrderBy () ou Sort () pour trier le Pyspark DataFrame en fonction des colonnes dans l'ordre croissant. Nous devons spécifier les noms / étiquettes de colonne à l'intérieur de la fonction OrderBy () / Sort () via le nom / étiquette de la colonne DataFrame.

Syntaxe:

trame de données.commander par (dataframe.nom de colonne.asc (),…, dataframe.nom de colonne.asc ())
trame de données.trier (dataframe.nom de colonne.asc (),…, dataframe.nom de colonne.asc ())

Ici,

  1. DataFrame est l'entrée Pyspark DataFrame.
  2. Column_name est la colonne où le tri est appliqué.

Exemple:

Dans cet exemple, nous allons trier le dataframe dans l'ordre croissant en fonction des colonnes d'adresse et d'âge avec la fonction OrderBy () et Sort () et afficher la méthode de données triée à l'aide de la méthode Collect ().

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17,
'adresse': 'patna',
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
# trier le dataframe en fonction des colonnes d'adresse et d'âge
# et afficher le framage de données trié
Imprimer (DF.OrderBy (DF.adresse.asc (), df.âge.asc ()).collecter())
imprimer()
Imprimer (DF.trier (df.adresse.asc (), df.âge.asc ()).collecter())

Sortir:

[Row (adresse = 'guntur', âge = 23, hauteur = 5.79, name = 'sravan', rollno = '001', poids = 67),
Ligne (adresse = 'hyd', âge = 9, hauteur = 3.69, name = 'rohith', rollno = '004', poids = 28),
Ligne (adresse = 'hyd', âge = 16, hauteur = 3.79, name = 'ojaswi', rollno = '002', poids = 34),
Ligne (adresse = 'hyd', âge = 37, hauteur = 5.59, name = 'sridevi', rollno = '005', poids = 54),
Ligne (adresse = 'patna', âge = 7, hauteur = 2.79, name = 'gnanesh chowdary', rollno = '003', poids = 17)]
[Row (adresse = 'guntur', âge = 23, hauteur = 5.79, name = 'sravan', rollno = '001', poids = 67),
Ligne (adresse = 'hyd', âge = 9, hauteur = 3.69, name = 'rohith', rollno = '004', poids = 28),
Ligne (adresse = 'hyd', âge = 16, hauteur = 3.79, name = 'ojaswi', rollno = '002', poids = 34),
Ligne (adresse = 'hyd', âge = 37, hauteur = 5.59, name = 'sridevi', rollno = '005', poids = 54),
Ligne (adresse = 'patna', âge = 7, hauteur = 2.79, name = 'gnanesh chowdary', rollno = '003', poids = 17)]

Méthode - 3: Utilisation de l'ASC () avec l'index DataFrame

Ici, nous utilisons les fonctions OrderBy () ou Sort () pour trier le Pyspark DataFrame en fonction des colonnes dans l'ordre croissant. Nous devons spécifier l'index / indices de colonne dans la fonction OrderBy () / Sort () via l'index / position de la colonne DataFrame. Dans DataFrame, l'indexation commence par «0».

Syntaxe:

trame de données.orderBy (dataframe [colonnen_index].ASC (),…, DataFrame [Column_index].asc ())
trame de données.Trie (dataFrame [Column_index].ASC (),…, DataFrame [Column_index].asc ())

Ici,

  1. DataFrame est l'entrée Pyspark DataFrame.
  2. Column_index est la position de colonne où le tri est appliqué.

Exemple:

Dans cet exemple, nous allons trier le dataframe dans l'ordre croissant en fonction des colonnes d'adresse et d'âge avec la fonction OrderBy () et Sort () et afficher la méthode de données triée à l'aide de la méthode Collect ().

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17,
'adresse': 'patna',
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
# trier le dataframe en fonction des colonnes d'adresse et d'âge
# et afficher le framage de données trié
Imprimer (DF.OrderBy (df [0].asc (), df [1].asc ()).collecter())
imprimer()
Imprimer (DF.tri (df [0].asc (), df [1].asc ()).collecter())

Sortir:

[Row (adresse = 'guntur', âge = 23, hauteur = 5.79, name = 'sravan', rollno = '001', poids = 67),
Ligne (adresse = 'hyd', âge = 9, hauteur = 3.69, name = 'rohith', rollno = '004', poids = 28),
Ligne (adresse = 'hyd', âge = 16, hauteur = 3.79, name = 'ojaswi', rollno = '002', poids = 34),
Ligne (adresse = 'hyd', âge = 37, hauteur = 5.59, name = 'sridevi', rollno = '005', poids = 54),
Ligne (adresse = 'patna', âge = 7, hauteur = 2.79, name = 'gnanesh chowdary', rollno = '003', poids = 17)]
[Row (adresse = 'guntur', âge = 23, hauteur = 5.79, name = 'sravan', rollno = '001', poids = 67),
Ligne (adresse = 'hyd', âge = 9, hauteur = 3.69, name = 'rohith', rollno = '004', poids = 28),
Ligne (adresse = 'hyd', âge = 16, hauteur = 3.79, name = 'ojaswi', rollno = '002', poids = 34),
Ligne (adresse = 'hyd', âge = 37, hauteur = 5.59, name = 'sridevi', rollno = '005', poids = 54),
Ligne (adresse = 'patna', âge = 7, hauteur = 2.79, name = 'gnanesh chowdary', rollno = '003', poids = 17)]

Pyspark - desc ()

Dans Pyspark, desc () est utilisé pour organiser les lignes dans l'ordre descendant dans le dataframe.

Il renverra le nouveau DataFrame en organisant les lignes dans le dataframe existant. Il est utilisé avec les fonctions tri () ou orderBy ().

Méthode - 1: Utilisation de desc () avec la fonction col

Ici, nous utilisons les fonctions OrderBy () ou Sort () pour trier le Pyspark DataFrame basé sur les colonnes pour trier le Pyspark DataFrame dans l'ordre descendant. Nous devons spécifier les noms / s de colonnes à l'intérieur de la fonction OrderBy () / Sort () via la fonction col. Nous devons importer cette fonction à partir de pyspark.SQL.module de fonctions. Ceci est utilisé pour lire une colonne à partir du pyspark dataframe.

Syntaxe:

trame de données.OrderBy (col ("Column_name").desc (),…, col ("Column_name").desc ())
trame de données.Soi (col ("Column_name").desc (),…, col ("Column_name").desc ())

Ici,

  1. DataFrame est l'entrée Pyspark DataFrame.
  2. Column_name est la colonne où le tri est appliqué via la fonction col.

Exemple:

Dans cet exemple, nous allons trier le dataframe dans l'ordre descendant en fonction des colonnes d'adresse et d'âge avec les fonctions OrderBy () et Sort () et afficher la méthode de données triée à l'aide de la méthode Collect ().

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LA FONCTION COL
de Pyspark.SQL.Fonctions Import Col
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17,
'adresse': 'patna',
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
# trier le dataframe en fonction des colonnes d'adresse et d'âge
# et afficher le framage de données trié
Imprimer (DF.OrderBy (col ("adresse").desc (), col ("âge").desc ()).collecter())
imprimer()
Imprimer (DF.Trier (col ("adresse").desc (), col ("âge").desc ()).collecter())

Sortir:

[Row (adresse = 'patna', âge = 7, hauteur = 2.79, name = 'gnanesh chowdary', rollno = '003', poids = 17),
Ligne (adresse = 'hyd', âge = 37, hauteur = 5.59, name = 'sridevi', rollno = '005', poids = 54),
Ligne (adresse = 'hyd', âge = 16, hauteur = 3.79, name = 'ojaswi', rollno = '002', poids = 34),
Ligne (adresse = 'hyd', âge = 9, hauteur = 3.69, name = 'rohith', rollno = '004', poids = 28),
Ligne (adresse = 'guntur', âge = 23, hauteur = 5.79, name = 'sravan', rollno = '001', poids = 67)]
[Row (adresse = 'patna', âge = 7, hauteur = 2.79, name = 'gnanesh chowdary', rollno = '003', poids = 17),
Ligne (adresse = 'hyd', âge = 37, hauteur = 5.59, name = 'sridevi', rollno = '005', poids = 54),
Ligne (adresse = 'hyd', âge = 16, hauteur = 3.79, name = 'ojaswi', rollno = '002', poids = 34),
Ligne (adresse = 'hyd', âge = 9, hauteur = 3.69, name = 'rohith', rollno = '004', poids = 28),
Ligne (adresse = 'guntur', âge = 23, hauteur = 5.79, name = 'sravan', rollno = '001', poids = 67)]

Méthode - 2: Utilisation de desc () avec l'étiquette DataFrame

Ici, nous utilisons les fonctions OrderBy () ou Sort () pour trier le Pyspark DataFrame basé sur les colonnes pour trier le Pyspark DataFrame dans l'ordre descendant. Nous devons spécifier les noms / étiquettes de colonne à l'intérieur de la fonction OrderBy () / Sort () via le nom / étiquette de la colonne DataFrame.

Syntaxe:

trame de données.commander par (dataframe.nom de colonne.desc (),…, DataFrame.nom de colonne.desc ())
trame de données.trier (dataframe.nom de colonne.desc (),…, DataFrame.nom de colonne.desc ())

Ici,

  1. DataFrame est l'entrée Pyspark DataFrame.
  2. Column_name est la colonne où le tri est appliqué.

Exemple:

Dans cet exemple, nous allons trier le dataframe dans l'ordre descendant en fonction des colonnes d'adresse et d'âge avec la fonction OrderBy () et Sort () et afficher la méthode de données triée à l'aide de la méthode Collect ().

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17,
'adresse': 'patna',
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
# trier le dataframe en fonction des colonnes d'adresse et d'âge
# et afficher le framage de données trié
Imprimer (DF.OrderBy (DF.adresse.desc (), df.âge.desc ()).collecter())
imprimer()
Imprimer (DF.trier (df.adresse.desc (), df.âge.desc ()).collecter())

Sortir:

[Row (adresse = 'patna', âge = 7, hauteur = 2.79, name = 'gnanesh chowdary', rollno = '003', poids = 17),
Ligne (adresse = 'hyd', âge = 37, hauteur = 5.59, name = 'sridevi', rollno = '005', poids = 54),
Ligne (adresse = 'hyd', âge = 16, hauteur = 3.79, name = 'ojaswi', rollno = '002', poids = 34),
Ligne (adresse = 'hyd', âge = 9, hauteur = 3.69, name = 'rohith', rollno = '004', poids = 28),
Ligne (adresse = 'guntur', âge = 23, hauteur = 5.79, name = 'sravan', rollno = '001', poids = 67)]
[Row (adresse = 'patna', âge = 7, hauteur = 2.79, name = 'gnanesh chowdary', rollno = '003', poids = 17),
Ligne (adresse = 'hyd', âge = 37, hauteur = 5.59, name = 'sridevi', rollno = '005', poids = 54),
Ligne (adresse = 'hyd', âge = 16, hauteur = 3.79, name = 'ojaswi', rollno = '002', poids = 34),
Ligne (adresse = 'hyd', âge = 9, hauteur = 3.69, name = 'rohith', rollno = '004', poids = 28),
Ligne (adresse = 'guntur', âge = 23, hauteur = 5.79, name = 'sravan', rollno = '001', poids = 67)]

Méthode - 3: Utilisation de l'ASC () avec l'index DataFrame

Ici, nous utilisons les fonctions OrderBy () ou Sort () pour trier le Pyspark DataFrame en fonction des colonnes dans l'ordre descendant. Nous devons spécifier l'index / indices de colonne dans la fonction OrderBy () / Sort () via l'index / position de la colonne DataFrame. Dans DataFrame, l'indexation commence par «0».

Syntaxe:

trame de données.orderBy (dataframe [colonnen_index].desc (),…, dataframe [colonnel_index].desc ())
trame de données.Trie (dataFrame [Column_index].desc (),…, dataframe [colonnel_index].desc ())

Ici,

  1. DataFrame est l'entrée Pyspark DataFrame.
  2. Column_index est la position de colonne où le tri est appliqué.

Exemple:

Dans cet exemple, nous allons trier le dataframe dans l'ordre descendant en fonction des colonnes d'adresse et d'âge avec la fonction OrderBy () et Sort () et afficher la méthode de données triée à l'aide de la méthode Collect ().

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17,
'adresse': 'patna',
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
# trier le dataframe en fonction des colonnes d'adresse et d'âge
# et afficher le framage de données trié
Imprimer (DF.OrderBy (df [0].asc (), df [1].asc ()).collecter())
imprimer()
Imprimer (DF.tri (df [0].asc (), df [1].asc ()).collecter())

Sortir:

[Row (adresse = 'patna', âge = 7, hauteur = 2.79, name = 'gnanesh chowdary', rollno = '003', poids = 17),
Ligne (adresse = 'hyd', âge = 37, hauteur = 5.59, name = 'sridevi', rollno = '005', poids = 54),
Ligne (adresse = 'hyd', âge = 16, hauteur = 3.79, name = 'ojaswi', rollno = '002', poids = 34),
Ligne (adresse = 'hyd', âge = 9, hauteur = 3.69, name = 'rohith', rollno = '004', poids = 28),
Ligne (adresse = 'guntur', âge = 23, hauteur = 5.79, name = 'sravan', rollno = '001', poids = 67)]
[Row (adresse = 'patna', âge = 7, hauteur = 2.79, name = 'gnanesh chowdary', rollno = '003', poids = 17),
Ligne (adresse = 'hyd', âge = 37, hauteur = 5.59, name = 'sridevi', rollno = '005', poids = 54),
Ligne (adresse = 'hyd', âge = 16, hauteur = 3.79, name = 'ojaswi', rollno = '002', poids = 34),
Ligne (adresse = 'hyd', âge = 9, hauteur = 3.69, name = 'rohith', rollno = '004', poids = 28),
Ligne (adresse = 'guntur', âge = 23, hauteur = 5.79, name = 'sravan', rollno = '001', poids = 67)]

Divers

Nous pouvons également utiliser les deux fonctions sur différentes colonnes dans Pyspark DataFrame à la fois.

Exemple:

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LA FONCTION COL
de Pyspark.SQL.Fonctions Import Col
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17,
'adresse': 'patna',
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
# trier le dataframe en fonction des colonnes d'adresse et d'âge
# et afficher le framage de données trié
Imprimer (DF.OrderBy (col ("adresse").desc (), col ("âge").asc ()).collecter())
imprimer()
Imprimer (DF.Trier (col ("adresse").asc (), col ("âge").desc ()).collecter())

Sortir:

[Row (adresse = 'patna', âge = 7, hauteur = 2.79, name = 'gnanesh chowdary', rollno = '003', poids = 17), ligne (adresse = 'hyd', âge = 9, hauteur = 3.69, name = 'rohith', rollno = '004', poids = 28), ligne (adresse = 'hyd', âge = 16, hauteur = 3.79, name = 'ojaswi', rollno = '002', poids = 34), ligne (adresse = 'hyd', âge = 37, hauteur = 5.59, name = 'sridevi', rollno = '005', poids = 54), ligne (adresse = 'guntur', âge = 23, hauteur = 5.79, name = 'sravan', rollno = '001', poids = 67)]
[Row (adresse = 'guntur', âge = 23, hauteur = 5.79, name = 'sravan', rollno = '001', poids = 67), ligne (adresse = 'hyd', âge = 37, hauteur = 5.59, name = 'sridevi', rollno = '005', poids = 54), ligne (adresse = 'hyd', âge = 16, hauteur = 3.79, name = 'ojaswi', rollno = '002', poids = 34), ligne (adresse = 'hyd', âge = 9, hauteur = 3.69, name = 'rohith', rollno = '004', poids = 28), ligne (adresse = 'patna', âge = 7, hauteur = 2.79, name = 'gnanesh chowdary', rollno = '003', poids = 17)]

Conclusion

Dans cet article, nous discutons de la façon d'utiliser la fonction ASC () à l'aide de trois scénarios avec Sort () et OrderBy () Fonctions sur le Pyspark DataFrame dans Python. Enfin, nous sommes arrivés à un point où nous pouvons trier les données dans l'ordre croissant en utilisant ASC () et l'ordre descendant en utilisant desc () dans le Pyspark DataFrame basé sur les colonnes présentes dans le dataframe.