Réorganiser les colonnes dans Pyspark DataFrame

Réorganiser les colonnes dans Pyspark DataFrame
Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark en utilisant DataFrame.

Nous discuterons de différents scénarios pour modifier l'ordre des colonnes dans Pyspark DataFrame.

Pour tous les scénarios, nous utilisons la méthode SELECT (). Avant de passer aux scénarios, nous créerons d'abord Pyspark DataFrame.

Exemple:
Ici, nous allons créer Pyspark DataFrame avec 5 lignes et 6 colonnes.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#display le dataframe
df.montrer()

Sortir:

Scénario 1: réorganiser les colonnes

Dans ce scénario, nous utiliserons uniquement la méthode SELECT () pour commander / réorganiser les colonnes dans le Pyspark DataFrame donné en fournissant une colonne par une dans la méthode.

Syntaxe:
trame de données.SELECT («Column1»,…, «colonne»)

Où:

  1. DataFrame est l'entrée Pyspark DataFrame
  2. Colonnes sont les noms de colonne à réorganiser.

Exemple:
Dans cet exemple, nous allons réorganiser les colonnes de cet ordre - «adresse», «hauteur», «rolno», «nom», «poids» et «âge». Ensuite, affichez la méthode DataFrame à l'aide de Show ().

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#Rearrange les colonnes dans l'ordre - "adresse", "hauteur", "rollno", "nom", "poids", "âge"
df = df.SELECT ("ADRESS", "HEETH", "Rollno", "Name", "Weight", "Age")
#Dispay le dataframe
df.montrer()

Sortir:

Scénario 2: Réorganisez les colonnes dans l'ordre croissant

Dans ce scénario, nous utiliserons la méthode triée () avec la méthode SELECT () pour réorganiser les colonnes dans l'ordre ascendant via la méthode tri ().

Syntaxe:
trame de données.Sélectionnez (trié (DataFrame.colonnes, inverse = false))

Où:

  1. DataFrame est l'entrée Pyspark DataFrame
  2. tri () est la méthode qui triera le dataframe dans l'ordre croissant. Il faudra deux paramètres. Le premier paramètre fait référence à la méthode des colonnes pour sélectionner toutes les colonnes dans le dataframe. Le deuxième paramètre est utilisé pour réorganiser le dataframe dans l'ordre croissant s'il est défini sur false.

Exemple:
Dans cet exemple, nous allons réorganiser les colonnes dans l'ordre croissant pour afficher le dataframe à l'aide de la méthode show ().

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LA FONCTION COL
de Pyspark.SQL.Fonctions Import Col
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#Rearrange les colonnes dans l'ordre croissant
df = df.Sélectionnez (trié (DF.colonnes, inverse = false))
#Dispay le dataframe
df.montrer()

Sortir:

Scénario 3: Réorganisez les colonnes dans l'ordre descendant

Dans ce scénario, nous utiliserons la méthode triée () avec la méthode SELECT () pour réorganiser les colonnes dans l'ordre descendant via la méthode tri ().

Syntaxe:
trame de données.Sélectionnez (trié (DataFrame.colonnes, inverse = true))

Où:

  1. DataFrame est l'entrée Pyspark DataFrame
  2. tri () est la méthode qui triera le dataframe dans l'ordre croissant. Il faudra deux paramètres. Le premier paramètre fait référence à la méthode des colonnes pour sélectionner toutes les colonnes dans le dataframe. Le deuxième paramètre est utilisé pour réorganiser le dataframe par ordre décroissant s'il est défini sur true.

Exemple:
Dans cet exemple, nous allons réorganiser les colonnes par ordre décroissant pour afficher la méthode DataFrame à l'aide de Show ().

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LA FONCTION COL
de Pyspark.SQL.Fonctions Import Col
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#Rearrange les colonnes par ordre décroissant
df = df.Sélectionnez (trié (DF.colonnes, inverse = true))
#Dispay le dataframe
df.montrer()

Sortir:

Conclusion

Dans ce tutoriel, nous avons discuté de la façon de réorganiser les colonnes dans Pyspark DataFrame avec trois scénarios en appliquant la méthode SELECT (). Nous avons utilisé la méthode triée () avec la méthode sélectionnée () pour réorganiser les colonnes.