Pyspark - allumé

Pyspark - allumé

Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark en utilisant DataFrame. Lit () est utilisé Créer une nouvelle colonne en ajoutant des valeurs à cette colonne dans Pyspark DataFrame. Avant de passer à la syntaxe, nous créerons Pyspark DataFrame.

Exemple:

Ici, nous allons créer Pyspark DataFrame avec 5 lignes et 6 colonnes.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LA FONCTION COL
de Pyspark.SQL.Fonctions Import Col
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17,
'adresse': 'patna',
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#display le dataframe
df.montrer()

Sortir:

lit () - syntaxe

allumé («valeur»).alias ("Column_name")

Où,

  1. Column_name est la nouvelle colonne.
  2. la valeur est la valeur constante ajoutée à la nouvelle colonne.

Nous devons importer cette méthode à partir de Pyspark.SQL.module de fonctions.

Note: Nous pouvons ajouter plusieurs colonnes à la fois

En utilisant la méthode SELECT (), nous pouvons utiliser la méthode lit ().

SELECT () est utilisé pour afficher les colonnes à partir du dataframe. Parallèlement à cela, nous pouvons ajouter une colonne / s en utilisant la méthode lit ().

Syntaxe:

trame de données.select (col ("colonne"),…, lit ("valeur").alias ("new_column"))

Où,

  1. la colonne est le nom de colonne existant à afficher.
  2. new_column est le nouveau nom de colonne à ajouter.
  3. la valeur est la valeur constante ajoutée à la nouvelle colonne.

Exemple 1:

Dans cet exemple, nous allons ajouter une nouvelle colonne nommée - Pincode et ajouter une valeur constante - 522112 à cette colonne et sélectionnez RollNo Colonne avec Pincode à partir du Pyspark DataFrame.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LA FONCTION COL, LIT
de Pyspark.SQL.Fonctions Import Col, allumé
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17,
'adresse': 'patna',
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
# Ajouter une nouvelle colonne Pincode avec une valeur constante - 522112
final = df.select (col ("rollno"), lit ("522112").alias ("Pincode"))
#Display le Final Dataframe
final.montrer()

Sortir:

Exemple 2:

Dans cet exemple, nous allons ajouter de nouvelles colonnes nommées - Pincode et City et ajouter une valeur constante - 522112 et Guntur à ces colonnes et sélectionner la colonne RollNO avec Pincode et City à partir du Pyspark DataFrame.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LA FONCTION COL, LIT
de Pyspark.SQL.Fonctions Import Col, allumé
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17,
'adresse': 'patna',
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
# Ajouter une nouvelle colonne: Pincode avec une valeur constante - 522112
# Ville avec une valeur constante - Guntur
final = df.select (col ("rollno"), lit ("522112").alias ("Pincode"), lit ("guntur").alias ("ville"))
#Display le Final Dataframe
final.montrer()

Sortir:

Nous pouvons également ajouter des valeurs à la nouvelle colonne à partir des valeurs de colonne existantes. Nous avons juste besoin de fournir le nom de la colonne à l'intérieur du paramètre allumé (valeur).

Syntaxe:

trame de données.select (col ("colonne"),…, allumé (dataframe.colonne).alias ("new_column"))

Où,

  1. DataFrame est l'entrée Pyspark DataFrame.
  2. la colonne est le nom de colonne existant à afficher.
  3. new_column est le nouveau nom de colonne à ajouter.
  4. la valeur est la valeur constante ajoutée à la nouvelle colonne.

Exemple:

Dans cet exemple, nous allons ajouter une colonne - «Pincode City» et attribuer des valeurs de la colonne d'adresse.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LA FONCTION COL, LIT
de Pyspark.SQL.Fonctions Import Col, allumé
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17,
'adresse': 'patna',
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
# Ajouter une nouvelle colonne: "Pincode City à partir de la colonne d'adresse
final = df.SELECT (col ("rollno"), allumé (df.adresse).alias ("Pincode City"))
#Display le Final Dataframe
final.montrer()

Sortir:

Nous pouvons également ajouter des valeurs de colonne existantes via l'index de colonne - l'indexation des colonnes commence par - 0.

Exemple:

Dans cet exemple, nous allons ajouter une colonne - «Pincode City» et attribuer des valeurs de la colonne d'adresse à l'index de la colonne d'adresse I.e., - 4.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LA FONCTION COL, LIT
de Pyspark.SQL.Fonctions Import Col, allumé
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17,
'adresse': 'patna',
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
# Ajouter une nouvelle colonne: "Pincode City à partir de la colonne d'adresse
final = df.select (col ("rollno"), lit (df [4]).alias ("Pincode City"))
#Display le Final Dataframe
final.montrer()

Sortir:

Conclusion

Dans ce tutoriel, nous avons discuté de la méthode lit () pour créer une nouvelle colonne avec des valeurs constantes. Il peut être possible d'attribuer les valeurs de la colonne existante en spécifiant la colonne à la place du paramètre de valeur via le nom de la colonne ainsi qu'un index de colonne.