Pyspark - dropna

Pyspark - dropna

Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark en utilisant DataFrame.

dropna () dans pyspark est utilisé pour supprimer les valeurs nulles du dataframe. Avant de discuter de cette méthode, nous devons créer Pyspark DataFrame pour la démonstration. Nous pouvons créer des valeurs nulles en utilisant aucune valeur.

Exemple:

Nous allons créer un dataframe avec 5 lignes et 6 colonnes avec des valeurs nulles et l'afficher à l'aide de la méthode Show ().

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LA FONCTION COL
de Pyspark.SQL.Fonctions Import Col
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': nul, 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 56, 'height': 2.79, «poids»: 17,
'adresse': 'patna',
?.69, «poids»: 28, «adresse»: aucun,
?
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#display le dataframe
df.montrer()

Sortir:

Syntaxe:

trame de données.dropna (comment, thresh, sous-ensemble)

Où,

  1. trame de données est l'entrée pyspark dataframe
  2. comment est le premier paramètre facultatif qui prendra deux valeurs possibles
  1. n'importe quel - Cette valeur laisse tomber les lignes, si l'une des valeurs est nul dans les lignes / colonnes.
  2. tous - Cette valeur laisse tomber les lignes, si toutes les valeurs sont nulles dans les lignes / colonnes.
  1. battre est un deuxième paramètre facultatif est utilisé pour supprimer les lignes / colonnes en fonction de la valeur entière qui lui est attribuée. Si les valeurs non nulles présentes dans la ligne / la colonne du Pyspark DataFrame sont inférieures à la valeur de thresh mentionnée, alors les valeurs nulles peuvent être supprimées de ces lignes.
  2. sous-ensemble est un troisième paramètre facultatif utilisé pour supprimer les valeurs de la colonne / s mentionnée. Il prendra des colonnes simples / multiples comme entrée via un tuple de noms de colonnes.

Exemple 1:

Dans cet exemple, nous supprimons les lignes à partir de la dataframe de création ci-dessus sans paramètres et affichant le dataframe à l'aide de la méthode show (). Donc, le résultat sera la dernière ligne car elle ne contient aucune valeur nulle dans cette ligne.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LA FONCTION COL
de Pyspark.SQL.Fonctions Import Col
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': Aucun, 'Height': 5.79, «poids»: aucun, «adresse»: «guntur»,
'rollno': '002', 'name': nul, 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 56, 'height': 2.79, «poids»: 17,
'adresse': 'patna',
?.69, «poids»: 28, «adresse»: aucun,
?
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#Drop le dataframe sans paramètres
df.dropna ().montrer()

Sortir:

Exemple 2:

Dans cet exemple, nous supprimons les lignes à partir de la dataframe de création ci-dessus en spécifiant comment paramètre et réglé sur `` tout '' et affichant le dataframe à l'aide de la méthode show (). Ainsi, le résultat sera toutes les lignes sauf la dernière ligne car elle contient toutes les valeurs nulles.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LA FONCTION COL
de Pyspark.SQL.Fonctions Import Col
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': Aucun, 'Height': 5.79, «poids»: aucun, «adresse»: «guntur»,
'rollno': '002', 'name': nul, 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 56, 'height': 2.79, «poids»: 17,
'adresse': 'patna',
?.69, «poids»: 28, «adresse»: aucun,
?
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#Drop le dataframe avec comment le paramètre
df.dropna (comment = 'all').montrer()

Sortir:

Exemple 3:

Dans cet exemple, nous supprimons les lignes à partir du DataFrame de création ci-dessus en spécifiant comment le paramètre et réglé sur `` n'importe quel '' et affichant le dataframe à l'aide de la méthode Show (). Ainsi, le résultat sera une seule ligne qui ne contient aucune valeur nul.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LA FONCTION COL
de Pyspark.SQL.Fonctions Import Col
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': Aucun, 'Height': 5.79, «poids»: aucun, «adresse»: «guntur»,
'rollno': '002', 'name': nul, 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 56, 'height': 2.79, «poids»: 17,
'adresse': 'patna',
?.69, «poids»: 28, «adresse»: aucun,
?
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#Drop le dataframe avec comment le paramètre
df.dropna (comment = 'any').montrer()

Sortir:

Exemple 4:

Dans cet exemple, nous supprimons les lignes à partir du DataFrame de création ci-dessus en spécifiant le paramètre Threres. Ainsi, le résultat sera deux lignes, car ces lignes ont plus de 5 valeurs non nulles.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LA FONCTION COL
de Pyspark.SQL.Fonctions Import Col
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': Aucun, 'Height': 5.79, «poids»: aucun, «adresse»: «guntur»,
'rollno': '002', 'name': nul, 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 56, 'height': 2.79, «poids»: 17,
'adresse': 'patna',
?.69, «poids»: 28, «adresse»: aucun,
?
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#Drop le dataframe avec le paramètre Thresh
df.dropna (thresh = 5).montrer()

Sortir:

Exemple 5:

Dans cet exemple, nous supprimons les lignes à partir du DataFrame de création ci-dessus en spécifiant le paramètre de sous-ensemble et attribuez la colonne «poids» et affichant le DataFrame à l'aide de la méthode Show ().

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LA FONCTION COL
de Pyspark.SQL.Fonctions Import Col
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': Aucun, 'Height': 5.79, «poids»: aucun, «adresse»: «guntur»,
'rollno': '002', 'name': nul, 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 56, 'height': 2.79, «poids»: 17,
'adresse': 'patna',
?.69, «poids»: 28, «adresse»: aucun,
?
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#Drop le dataframe avec le paramètre de sous-ensemble
df.dropna (sous-ensemble = "poids").montrer()

Sortir:

Exemple 6:

Dans cet exemple, nous supprimons les lignes à partir de la dataframe de création ci-dessus en spécifiant le paramètre de sous-ensemble et en attribuant des colonnes «poids» et «nom» et en affichant le dataframe à l'aide de la méthode show ().

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LA FONCTION COL
de Pyspark.SQL.Fonctions Import Col
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': Aucun, 'Height': 5.79, «poids»: aucun, «adresse»: «guntur»,
'rollno': '002', 'name': nul, 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 56, 'height': 2.79, «poids»: 17,
'adresse': 'patna',
?.69, «poids»: 28, «adresse»: aucun,
?
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#Drop le dataframe avec le paramètre de sous-ensemble
df.dropna (sous-ensemble = ("poids", "nom")).montrer()

Sortir:

Conclusion

Dans cet article, nous avons expliqué comment utiliser la méthode dropna () avec Pyspark DataFrame en considérant tous les paramètres. Nous pouvons également supprimer toutes les valeurs nulles de la dataframe sans spécifier ces paramètres.