Pyspark Convert Colonne de String en type entier

Pyspark Convert Colonne de String en type entier
Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark en utilisant DataFrame. Nous discuterons de différentes méthodes pour convertir la colonne de String en entier dans Pyspark DataFrame.
  1. Méthode 1: Utilisation du mot-clé int avec witholumn ()
  2. Méthode 2: Utilisation d'IntegerType () avec WithColumn ()
  3. Méthode 3: Utilisation du mot-clé int avec select ()
  4. Méthode 4: Utilisation du mot-clé int avec selectExpr ()

Avant de passer aux scénarios, nous créerons Pyspark DataFrame. Ici, nous allons créer Pyspark DataFrame avec 5 lignes et 6 colonnes et afficher la colonne avec des types de données à l'aide de la méthode impriméschema ().

Importer Pyspark
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: «67», «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16,
'Hauteur': 3.79, «poids»: «34», «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7,
'Hauteur': 2.79, «poids»: «17», «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9,
'Hauteur': 3.69, «poids»: «28», «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37,
'Hauteur': 5.59, «poids»: «54», «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#get le schéma
df.impriméschema ()

Sortir:

racine
| - Adresse: String (nullable = true)
| - âge: long (nullable = true)
| - hauteur: double (nullable = true)
| - Nom: String (nullable = true)
| - rollno: string (nullable = true)
| - poids: chaîne (nullable = true)

Méthode 1: Utilisation du mot-clé int avec la méthode witholumn ()

Dans cette méthode, nous utilisons la méthode WithColumn () pour modifier le type de données de String à Integer en passant le mot clé int à l'intérieur de la fonction Cast ().

Syntaxe:
trame de données.WithColumn («colonne», df.colonne.cast ('int'))

WithColumn () prendra deux paramètres:

  1. la colonne est le nom de colonne dont le type de données est converti.
  2. Cast () convertit la chaîne en Integer en prenant INT Keyword en tant que paramètre.

Exemple:
Dans cet exemple, nous convertirons le type de données de colonne de poids en entier et afficherons le schéma à l'aide de la méthode impriméschema ().

Importer Pyspark
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: «67», «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16,
'Hauteur': 3.79, «poids»: «34», «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7,
'Hauteur': 2.79, «poids»: «17», «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9,
'Hauteur': 3.69, «poids»: «28», «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37,
'Hauteur': 5.59, «poids»: «54», «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#convert de dataType de colonne de poids en entier
df.WithColumn ("poids", df.lester.cast ('int')).impriméschema ()

Sortir:

racine
| - Adresse: String (nullable = true)
| - âge: long (nullable = true)
| - hauteur: double (nullable = true)
| - Nom: String (nullable = true)
| - rollno: string (nullable = true)
| - poids: entier (nullable = true)

Méthode 2: Utilisation d'IntegerType () avec la méthode WithColumn ()

Dans cette méthode, nous utilisons la méthode WithColumn () pour modifier le type de données de String en Integer en passant IntegerType () Méthode à l'intérieur de la fonction Cast (). Nous devons importer cette méthode à partir de Pyspark.SQL.Module de types.

Syntaxe:
trame de données.WithColumn («colonne», df.colonne.cast (IntegerType ()))

WithColumn () prendra deux paramètres:

  1. la colonne est le nom de colonne dont le type de données est converti.
  2. Cast () convertit la chaîne en entier en prenant la méthode IntegerType () comme paramètre.

Exemple:
Dans cet exemple, nous convertirons le type de données de colonne de poids en entier et afficherons le schéma à l'aide de la méthode impriméschema ().

Importer Pyspark
de Pyspark.SQL IMPORT SPARKSESSE
de Pyspark.SQL.Types Import IntegerType
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: «67», «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16,
'Hauteur': 3.79, «poids»: «34», «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7,
'Hauteur': 2.79, «poids»: «17», «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9,
'Hauteur': 3.69, «poids»: «28», «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37,
'Hauteur': 5.59, «poids»: «54», «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#convert de dataType de colonne de poids en entier
df.WithColumn ("poids", df.lester.cast (IntegerType ())).impriméschema ()

Sortir:

racine
| - Adresse: String (nullable = true)
| - âge: long (nullable = true)
| - hauteur: double (nullable = true)
| - Nom: String (nullable = true)
| - rollno: string (nullable = true)
| - poids: entier (nullable = true)

Méthode 3: Utilisation du mot-clé int avec SELECT () Méthode

Dans cette méthode, nous utilisons la méthode SELECT () pour modifier le type de données de String en Integer en passant le mot-clé int à l'intérieur de la fonction Cast (). Nous pouvons sélectionner la colonne à l'aide de la méthode col (). col () est importé de pyspark.SQL.module de fonctions.

Syntaxe:
trame de données.select (col («colonne»), cast ('int'))

select () prendra deux paramètres:

  1. la colonne est le nom de colonne dont le type de données est converti.
  2. Cast () convertit la chaîne en Integer en prenant INT Keyword en tant que paramètre.

Exemple:
Dans cet exemple, nous convertirons le type de données de colonne de poids en entier et afficherons le schéma à l'aide de la méthode impriméschema ().

Importer Pyspark
de Pyspark.SQL IMPORT SPARKSESSE
de Pyspark.SQL.Fonctions Import Col
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: «67», «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16,
'Hauteur': 3.79, «poids»: «34», «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7,
'Hauteur': 2.79, «poids»: «17», «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9,
'Hauteur': 3.69, «poids»: «28», «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37,
'Hauteur': 5.59, «poids»: «54», «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#convert de dataType de colonne de poids en entier
df.SELECT (col ("poids").cast ('int')).impriméschema ()

Sortir:

racine
| - poids: entier (nullable = true)

Méthode 4: Utilisation du mot-clé int avec selectExpr () Méthode

Dans cette méthode, nous utilisons la méthode selectExpr () pour modifier le type de données de String to Integer en passant le mot-clé int à l'intérieur de la fonction Cast (). Il prendra un paramètre comme une expression

Syntaxe:
trame de données.selectExpr («Cast (colonne comme int)»)

select () prendra deux paramètres:

  1. la colonne est le nom de colonne dont le type de données est converti.
  2. Cast () convertit la chaîne en Integer en prenant INT Keyword en tant que paramètre.

Exemple:
Dans cet exemple, nous convertirons le type de données de colonne de poids en entier et afficherons le schéma à l'aide de la méthode impriméschema ().

Importer Pyspark
de Pyspark.SQL IMPORT SPARKSESSE
de Pyspark.SQL.Fonctions Import Col
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: «67», «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16,
'Hauteur': 3.79, «poids»: «34», «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7,
'Hauteur': 2.79, «poids»: «17», «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9,
'Hauteur': 3.69, «poids»: «28», «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37,
'Hauteur': 5.59, «poids»: «54», «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#convert de dataType de colonne de poids en entier
df.selectExpr ("Cast (poids as int)")

Sortir:

DataFrame [poids: int]

Conclusion

Dans ce tutoriel, nous avons discuté de quatre méthodes pour convertir la chaîne en colonnes de type entier dans Pyspark DataFrame. WithColumn (), Select () et SelectExPr () sont les méthodes utilisées pour convertir le type de données. Nous avons observé que dans toutes les méthodes, le paramètre Cast () est utilisé.