Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark en utilisant DataFrame. Nous discuterons de différentes méthodes pour modifier les noms de colonne de Pyspark DataFrame. Nous créerons Pyspark DataFrame avant de passer aux méthodes.
Exemple:
Ici, nous allons créer Pyspark DataFrame avec 5 lignes et 6 colonnes.
# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LA FONCTION COL
de Pyspark.SQL.Fonctions Import Col
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#display le dataframe
df.montrer()
Sortir:
Méthode 1: Using witholumnRenamed ()
Nous pouvons modifier le nom de la colonne dans le pyspark dataframe en utilisant cette méthode.
Syntaxe:
trame de données.WithColumnRenamed ("Old_Column", "New_Column")
Paramètres:
- Old_Column est la colonne existante
- New_Column est la nouvelle colonne qui remplace l'ancien_column
Exemple:
Dans cet exemple, nous remplaçons la colonne d'adresse par «ville» et affichons l'intégralité de DataFrame à l'aide de la méthode Show ().
# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LA FONCTION COL
de Pyspark.SQL.Fonctions Import Col
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#Rename la colonne d'adresse avec la ville
df.WithColumnRenDamed ("adresse", "ville").montrer()
Sortir:
Nous pouvons également remplacer plusieurs noms de colonne à la fois en utilisant cette méthode.
Syntaxe:
trame de données.WithColumnRenamed ("Old_Column", "New_Column") .WithColumnRenDamed ("Old_Column", "New_Column")… .WithColumnRenamed ("Old_Column", "New_Column")
Exemple:
Dans cet exemple, nous remplaçons la colonne d'adresse par «ville», la colonne de hauteur par «hauteur», la colonne Rollno avec «ID» et affichant la méthode entière de DataFrame à l'aide de Show ().
# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#Rename la colonne d'adresse avec ville, colonne de hauteur avec hauteur, colonne Rollno avec ID
df.WithColumnRenDamed ("adresse", "ville").WithColumnRenDamed ("Hauteur", "High").witholumnRenamed ("rollno", "id").montrer()
Sortir:
Méthode 2: Utilisation de selectExpr ()
Ceci est une méthode d'expression qui change le nom de la colonne en prenant une expression.
Syntaxe:
trame de données.selectExpr (expression)
Paramètres:
- Il ne prendra qu'un seul paramètre qui est une expression.
- L'expression est utilisée pour changer la colonne. Donc, l'expression sera: "Old_Column as new_column".
Enfin, la syntaxe est:
trame de données.selectExpr ("old_column as new_column")
où,
- Old_Column est la colonne existante
- New_Column est la nouvelle colonne qui remplace l'ancien_column
Remarque: nous pouvons fournir plusieurs expressions séparées par des virgules dans cette méthode.
Exemple 1:
Dans cet exemple, nous remplaçons la colonne d'adresse par «ville» et affichons cette colonne à l'aide de la méthode Show ().
# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#Rename la colonne d'adresse avec la ville
df.selectExpr ("Adresse en tant que ville").montrer()
Sortir:
Exemple 2:
Dans cet exemple, nous remplaçons la colonne d'adresse par «ville», la colonne de hauteur par «hauteur», la colonne Rollno avec «ID» et affichant la méthode entière de DataFrame à l'aide de Show ().
# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#Rename la colonne d'adresse avec ville, colonne de hauteur avec hauteur, colonne Rollno avec ID
df.selectExpr ("Adresse en ville", "hauteur comme hauteur", "rollno as id").montrer()
Sortir:
Méthode 3: Utilisation de Select ()
Nous pouvons sélectionner des colonnes dans le DataFrame en modifiant les noms de colonne via Col avec Alias ().
Syntaxe:
trame de données.select (col ("old_column").alias ("new_column"))
Paramètres:
- Il ne prendra qu'un seul paramètre qui est le nom de la colonne via la méthode col ().
Col () est une méthode disponible dans Pyspark.SQL.Les fonctions prendront Old_Column comme paramètre d'entrée et passeront à New_Column avec Alias ()
Alias () prendra New_Column en tant que paramètre
où:
- Old_Column est la colonne existante
- New_Column est la nouvelle colonne qui remplace l'ancien_column
Remarque: nous pouvons fournir plusieurs colonnes séparées par des virgules dans cette méthode.
Exemple 1:
Dans cet exemple, nous remplaçons la colonne d'adresse par «ville» et affichons cette colonne à l'aide de la méthode Show ().
# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LA FONCTION COL
de Pyspark.SQL.Fonctions Import Col
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#Rename la colonne d'adresse avec la ville
df.SELECT (COL ("Adresse").alias ("ville")).montrer()
Sortir:
Exemple 2:
Dans cet exemple, nous remplaçons la colonne d'adresse par «ville», la colonne de hauteur par «hauteur», la colonne RollNo avec «ID» et affichant la méthode entière de DataFrame à l'aide de Show ().
# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LA FONCTION COL
de Pyspark.SQL.Fonctions Import Col
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#Rename la colonne d'adresse avec ville, colonne de hauteur avec hauteur, colonne Rollno avec ID
df.SELECT (COL ("Adresse").alias ("ville"), col ("hauteur").alias ("hauteur"), col ("rollno").alias ("id")).montrer()
Sortir:
Conclusion
Dans ce didacticiel, nous avons discuté de la façon de modifier les noms de colonne de Pyspark DataFrame en utilisant WithColumnRember (), Select et SelectExpr (). En utilisant ces méthodes, nous pouvons également modifier plusieurs noms de colonne à la fois.