Pyspark - Clause SELECT

Pyspark - Clause SELECT
Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark en utilisant DataFrame.

select () dans pyspark est utilisé pour sélectionner les colonnes dans le dataframe.

Nous pouvons sélectionner des colonnes à bien des égards.

Discutons-le un par un. Avant cela, nous devons créer Pyspark DataFrame pour la démonstration.

Exemple:

Nous allons créer un dataframe avec 5 lignes et 6 colonnes et l'afficher à l'aide de la méthode Show ().

#IMPORT LE MODULE PYSPAPRK
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#display dataframe
df.montrer()

Sortir:

Méthode -1: Utilisation de noms de colonnes

Ici, nous donnerons des noms de colonne directement à sélectionner () Méthode. Cette méthode renvoie les données présentes dans ces colonnes; Nous pouvons donner plusieurs colonnes simultanément.

Syntaxe:

Trame de données.SELECT («Column_name»,… .)

Exemple:

Dans cet exemple, nous allons sélectionner la colonne de nom et d'adresse dans le pyspark dataframe et l'afficher à l'aide de la méthode collection ()

#IMPORT LE MODULE PYSPAPRK
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#display Nom and Address Colonnes
df.sélectionnez ("nom", "adresse").collecter()

Sortir:

[Row (name = 'sravan', adresse = 'guntur'),
Ligne (name = 'ojaswi', adresse = 'hyd'),
Row (name = 'gnanesh chowdary', adresse = 'patna'),
Ligne (name = 'rohith', adresse = 'hyd'),
Row (name = 'sridevi', adresse = 'hyd')]

Méthode -2: Utilisation de noms de colonnes avec DataFrame

Ici, nous donnerons des noms de colonne avec DataFrame pour sélectionner () Méthode. Cette méthode renvoie les données présentes dans ces colonnes; Nous pouvons donner plusieurs colonnes simultanément.

Syntaxe:

Trame de données.Sélectionner (DataFrame.nom de colonne,… .)

Exemple:

Dans cet exemple, nous allons sélectionner la colonne de nom et d'adresse dans le pyspark dataframe et l'afficher à l'aide de la méthode collection ()

#IMPORT LE MODULE PYSPAPRK
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#display Nom and Address Colonnes
df.Sélectionner (DF.nom, df.adresse).collecter()

Sortir:

[Row (name = 'sravan', adresse = 'guntur'),
Ligne (name = 'ojaswi', adresse = 'hyd'),
Row (name = 'gnanesh chowdary', adresse = 'patna'),
Ligne (name = 'rohith', adresse = 'hyd'),
Row (name = 'sridevi', adresse = 'hyd')]

Méthode -3: Utilisation de l'opérateur []

Ici, nous donnerons des noms de colonne à l'intérieur de l'opérateur [] avec la méthode DataFrame pour sélectionner (). Cette méthode renvoie les données présentes dans ces colonnes; Nous pouvons donner plusieurs colonnes simultanément.

Syntaxe:

Trame de données.Sélectionner (DataFrame.nom de colonne,… .)

Exemple:

Dans cet exemple, nous allons sélectionner la colonne de nom et d'adresse dans le pyspark dataframe et l'afficher à l'aide de la méthode collection ()

#IMPORT LE MODULE PYSPAPRK
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#display Nom and Address Colonnes
df.sélectionner (df ["name"], df ["adresse"]).collecter()

Sortir:

[Row (name = 'sravan', adresse = 'guntur'),
Ligne (name = 'ojaswi', adresse = 'hyd'),
Row (name = 'gnanesh chowdary', adresse = 'patna'),
Ligne (name = 'rohith', adresse = 'hyd'),
Row (name = 'sridevi', adresse = 'hyd')]

Méthode -4: Utilisation de la fonction col

Ici, nous donnerons des noms de colonne à l'intérieur de la fonction COL pour sélectionner () Méthode. Cette fonction est disponible à Pyspark.Fonctions SQL, qui renvoie les données présentes dans ces colonnes; Nous pouvons donner plusieurs colonnes à la fois à l'intérieur de la méthode SELECT ().Syntaxe:

Trame de données.SELECT (col ("Column_name"),… .)

Exemple:

Dans cet exemple, nous allons sélectionner la colonne de nom et d'adresse dans la méthode Pyspark DataFrame et afficher à l'aide de collection ()

#IMPORT LE MODULE PYSPAPRK
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LA FONCTION COL
de Pyspark.SQL.Fonctions Import Col
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#display Nom and Address Colonnes
# avec une fonction col
df.select (col ("name"), col ("adresse")).collecter()

Sortir:

[Row (name = 'sravan', adresse = 'guntur'),
Ligne (name = 'ojaswi', adresse = 'hyd'),
Row (name = 'gnanesh chowdary', adresse = 'patna'),
Ligne (name = 'rohith', adresse = 'hyd'),
Row (name = 'sridevi', adresse = 'hyd')]

Conclusion

Dans cet article, nous avons discuté de la façon de sélectionner les données dans le DataFrame, et nous avons discuté de 4 façons de sélectionner les données à l'aide de noms de colonne avec la méthode Collect ().