Pyspark - Colonne Drop, Drop

Pyspark - Colonne Drop, Drop
Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark en utilisant DataFrame. drop () dans pyspark est utilisé pour supprimer les colonnes du dataframe. En utilisant Drop (), nous pouvons supprimer plus d'une colonne à la fois dans le Pyspark DataFrame. Nous pouvons supprimer les colonnes de la dataframe de trois manières. Avant cela, nous devons créer Pyspark DataFrame pour la démonstration.

Exemple:

Nous allons créer un dataframe avec 5 lignes et 6 colonnes et l'afficher à l'aide de la méthode Show ().

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#display dataframe
df.montrer()

Sortir:

Maintenant, affichez le schéma DataFrame à l'aide de la méthode impriméschema () pour vérifier les colonnes avant de retirer les colonnes.

Cette méthode renvoie les noms de colonne avec leur type de données.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LE COUNTFONCTION
de Pyspark.SQL.Fonctions Count d'importation
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#Display le schéma
df.impriméschema ()

Sortir:

racine
| - Adresse: String (nullable = true)
| - âge: long (nullable = true)
| - hauteur: double (nullable = true)
| - Nom: String (nullable = true)
| - rollno: string (nullable = true)
| - poids: long (nullable = true)

MÉTHODE -1: COLONNE SUPPORT

Nous supprimerons une seule colonne à la fois en utilisant la fonction Drop () en passant la colonne à l'intérieur de la fonction de dépôt.

Syntaxe:

df.drop ('column_name')

Où,

  1. df est l'entrée pyspark dataframe
  2. Column_name est la colonne à supprimer.

Exemple :

Dans cet exemple, nous supprimerons la colonne de nom et afficherons le Resultant DataFrame et le schéma.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LE COUNTFONCTION
de Pyspark.SQL.Fonctions Count d'importation
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
Colonne de nom #drop
df = df.drop ('name')
#Check the dataframe
Imprimer (DF.collecter())
#Display le schéma
#After Retrait le nom de la colonne
df.impriméschema ()

Sortir:

[Row (adresse = 'guntur', âge = 23, hauteur = 5.79, rollno = '001', poids = 67), ligne (adresse = 'hyd', âge = 16, hauteur = 3.79, rollno = '002', poids = 34), ligne (adresse = 'patna', âge = 7, hauteur = 2.79, rollno = '003', poids = 17), ligne (adresse = 'hyd', âge = 9, hauteur = 3.69, rollno = '004', poids = 28), ligne (adresse = 'hyd', âge = 37, hauteur = 5.59, rollno = '005', poids = 54)]
racine
| - Adresse: String (nullable = true)
| - âge: long (nullable = true)
| - hauteur: double (nullable = true)
| - rollno: string (nullable = true)
| - poids: long (nullable = true)

Dans l'exemple ci-dessus, nous verrons que la colonne de nom n'est pas présente dans le dataframe

Méthode - 2: Colonnes de mutiles déposées

Nous supprimerons une seule colonne à la fois en utilisant la fonction Drop () en passant la colonne à l'intérieur de la fonction de dépôt. Si nous devons supprimer plusieurs colonnes, alors nous devons ajouter * avant les noms de colonne à supprimer à l'intérieur ().

Syntaxe:

df.Drop (* ('Column_name', 'Column_name',…, 'Column_name'))

Où,

  1. df est l'entrée pyspark dataframe
  2. Column_name est la colonne à supprimer.

Exemple :

Dans cet exemple, nous supprimerons les colonnes de nom, de hauteur et de poids et afficherons le dataframe résultant avec le schéma.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LE COUNTFONCTION
de Pyspark.SQL.Fonctions Count d'importation
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#drop Nom, Colonne de taille et de poids
df = df.drop (* ('name', 'height', 'poids'))
#Check the dataframe
Imprimer (DF.collecter())
#Display le schéma
#After Retrait le nom de la colonne
df.impriméschema ()

Sortir:

[Row (adresse = 'guntur', âge = 23, rollno = '001'), ligne (adresse = 'hyd', âge = 16, rollno = '002'), row (adresse = 'patna', âge = 7 , rollno = '003'), row (adresse = 'hyd', âge = 9, rollno = '004'), row (adresse = 'hyd', âge = 37, rollno = '005')]
racine
| - Adresse: String (nullable = true)
| - âge: long (nullable = true)
| - rollno: string (nullable = true)

Dans l'exemple ci-dessus, nous verrons que les colonnes de nom, de hauteur et de poids ne sont pas présentes dans le dataframe.

Méthode - 3: déposez les colonnes mutiles d'une liste

Nous supprimerons une seule colonne à la fois en utilisant la fonction Drop () en passant la colonne à l'intérieur de la fonction de dépôt. Si nous devons supprimer plusieurs colonnes, alors nous devons ajouter * avant les noms de colonne pour être supprimés dans une liste - [].

Syntaxe:

df.liste déroulante)

Ici, la liste contiendra plusieurs colonnes

list = (Column_name ',' Column_name ',…,' Column_name ')

Où,

  1. df est l'entrée pyspark dataframe
  2. Column_name est la colonne à supprimer.

Exemple :

Dans cet exemple, nous supprimerons les colonnes de nom, de hauteur et de poids transmises par List1 et afficherons le dataframe résultant avec le schéma.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LE COUNTFONCTION
de Pyspark.SQL.Fonctions Count d'importation
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
# liste des colonnes
list1 = ['name', 'height', 'poids']
Colonnes #drop de la liste1
df = df.Drop (* list1)
#Check the dataframe
Imprimer (DF.collecter())
#Display le schéma
#After Retrait le nom de la colonne
df.impriméschema ()

Sortir:

[Row (adresse = 'guntur', âge = 23, rollno = '001'), ligne (adresse = 'hyd', âge = 16, rollno = '002'), row (adresse = 'patna', âge = 7 , rollno = '003'), row (adresse = 'hyd', âge = 9, rollno = '004'), row (adresse = 'hyd', âge = 37, rollno = '005')]
racine
| - Adresse: String (nullable = true)
| - âge: long (nullable = true)
| - rollno: string (nullable = true)

Dans l'exemple ci-dessus, nous verrons que les colonnes de nom, de hauteur et de poids ne sont pas présentes dans le dataframe.

Conclusion:

Nous avons discuté de la façon de supprimer les colonnes à l'aide de la fonction Drop (), et nous avons également discuté de la façon de supprimer plusieurs colonnes à la fois avec Drop en passant une liste de colonnes et en passant plusieurs colonnes.