Pyspark - méthode avec la rémunération

Pyspark - méthode avec la rémunération
Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark en utilisant DataFrame.

La méthode WithColumnRember () dans Pyspark est utilisée pour renommer les colonnes existantes dans le Pyspark DataFrame.

Syntaxe:

Trame de données.WithColumnRenamed ('old_column', 'new_column')

Paramètres:

  1. Old_Column est l'ancien nom de colonne
  2. New_Column est le nouveau nom de l'ancienne colonne

Créons le Pyspark DataFrame avec 5 lignes et 6 colonnes et afficher à l'aide de la méthode Show ()

Exemple:

#IMPORT LE MODULE PYSPAPRK
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LA FONCTION COL
de Pyspark.SQL.Fonctions Import Col
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#display le dataframe
df.montrer()

Sortir:

Nous modifierons le nom de la colonne «Adresse» en «Adresse des élèves», «Rollno» Colonne à «ID des étudiants» et «nom» à la colonne «Nom des élèves».

Exemple:

#IMPORT LE MODULE PYSPAPRK
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#Rename Nom Colonne au nom des étudiants
df = df.WithColumnRenamed ("nom", "nom des étudiants")
#Rename Adresse Colonne au nom des étudiants
df = df.WithColumnRenDamed ("Adresse", "Adresse des étudiants")
#rename rollno colonne aux étudiants ID
df = df.WithColumnRenDamed ("Rollno", "Students ID")
#lets affiche le schéma
df.impriméschema ()

Sortir:

racine
| - Adresse des élèves: String (nullable = true)
| - âge: long (nullable = true)
| - hauteur: double (nullable = true)
| - Nom des élèves: String (nullable = true)
| - ID des étudiants: String (nullable = true)
| - poids: long (nullable = true)

Si nous voulons plusieurs noms de colonnes à la fois, nous devons utiliser la fonction witholumnRenDamed () plusieurs fois séparée par le point (.) opérateur

Syntaxe:

Trame de données.WithColumnReNamed ('old_column1', 'new_column')… witholumnReNAmed ('old_column2', 'new_column')… witholumnRenDamed ('old_column3', 'new_column')).
.WithColumnReNamed ('old_column n', 'new_column')

Exemple:

Dans cet exemple, changera le nom de la colonne «Adresse» en «Adresse des élèves», la colonne «Rollno» en colonne «ID des étudiants» et «nom» à «Nom des élèves» et enfin afficher le schéma.

#IMPORT LE MODULE PYSPAPRK
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#Rename Nom Colonne au nom des étudiants,
#Address Colonne au nom des étudiants
#rename rollno colonne aux étudiants ID
df = df.WithColumnRenamed ("nom", "nom des étudiants").WithColumnRenDamed ("Adresse", "Adresse des étudiants").WithColumnRenDamed ("Rollno", "Students ID")
#lets affiche le schéma
df.impriméschema ()

Sortir:

racine
| - Adresse des élèves: String (nullable = true)
| - âge: long (nullable = true)
| - hauteur: double (nullable = true)
| - Nom des élèves: String (nullable = true)
| - ID des étudiants: String (nullable = true)
| - poids: long (nullable = true)

Conclusion

Dans cet article, nous avons discuté de la façon de renommer les noms de colonne en utilisant la fonction witholumnRember () et avons vu comment renommer plusieurs colonnes.