Pyspark - Pandas DataFrame Isna, Notna, Notnull

Pyspark - Pandas DataFrame Isna, Notna, Notnull
«Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark à l'aide de DataFrame, qui stockera les données données au format de ligne et de colonne.

Pyspark - Pandas DataFrame représente le Pandas DataFrame, mais il contient le Pyspark DataFrame en interne.

Pandas prend en charge la structure des données DataFrame et Pandas est importé du module Pyspark.

Avant cela, vous devez installer le module Pyspark."

Commande

pip install pyspark

Syntaxe à importer

De Pyspark Import Pandas

Après cela, nous pouvons créer ou utiliser le DataFrame à partir du module Pandas.

Syntaxe pour créer Pandas DataFrame:

pyspark.pandas.Trame de données()

Nous pouvons passer un dictionnaire ou une liste de listes avec des valeurs.

Créons un Pandas DataFrame via Pyspark qui a quatre colonnes et cinq lignes.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', None, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, aucun, aucun, 54,67], 'Mark2': [100, 67,96,89, aucun], «Mark3»: [91,92,98,97,87])
imprimer (pyspark_pandas)

Sortir

Maintenant, nous allons entrer dans notre tutoriel.

Les fonctions isna (), notna () et notnull () sont utilisées pour vérifier si aucune des valeurs ne s'est produite dans Pyspark Pandas DataFrame. Ils sont représentés par NAN (pas un nombre); Dans Python, nous pouvons les créer en utilisant aucun.

Voyons-les un par un.

pyspark.pandas.Trame de données.ISNA

ISNA est utilisé pour vérifier si la valeur est nul. S'il est nul, alors il reviendra vrai à cette valeur. Sinon, il renvoie faux. Il ne prend aucun paramètre.

Syntaxe

pyspark_pandas.ISNA

Où pyspark_pandas est le pyspark pandas dataframe.

Nous pouvons également vérifier dans des colonnes particulières.

Syntaxe

pyspark_pandas.colonne.ISNA

Où la colonne est le nom de la colonne.

Exemple 1
Dans cet exemple, nous vérifierons les valeurs NAN dans la colonne Mark1 en utilisant ISNA.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', None, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, aucun, aucun, 54,67], 'Mark2': [100, 67,96,89, aucun], «Mark3»: [91,92,98,97,87])
#Check pour aucune des valeurs dans la colonne Mark1
imprimer (pyspark_pandas.Mark1.isna ())

Sortir

0 faux
1 vrai
2 vrai
3 faux
4 faux
Nom: Mark1, Dtype: Bool

Nous pouvons voir que dans la deuxième et la troisième rangée - Nan est disponible, donc à ces positions, ISNA est revenu vrai. Dans d'autres cas, il est revenu faux.

Exemple 2
Dans cet exemple, nous vérifierons les valeurs NAN dans l'ensemble du Pyspark Pandas DataFrame en utilisant ISNA.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', None, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, aucun, aucun, 54,67], 'Mark2': [100, 67,96,89, aucun], «Mark3»: [91,92,98,97,87])
#Check pour aucune des valeurs dans l'ensemble des données
imprimer (pyspark_pandas.isna ())

Sortir

Student_lastName Mark1 Mark2 Mark3
0 faux faux faux faux
1 vrai vrai faux faux
2 faux vrai faux faux
3 faux faux faux faux
4 faux faux vrai faux

Nous pouvons voir que Isna revient vrai partout où Nan existe.

pyspark.pandas.Trame de données.notna

Notna est utilisé pour vérifier si la valeur n'est pas nul. S'il est nul, il reviendra faux à cette valeur. Sinon, il renvoie vrai. Il ne prend aucun paramètre.

Syntaxe

pyspark_pandas.notna

Où pyspark_pandas est le pyspark pandas dataframe.

Nous pouvons également vérifier dans des colonnes particulières.

Syntaxe

pyspark_pandas.colonne.notna

Où la colonne est le nom de la colonne.

Exemple 1
Dans cet exemple, nous vérifierons les valeurs NAN dans la colonne Mark1 en utilisant Notna.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', None, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, aucun, aucun, 54,67], 'Mark2': [100, 67,96,89, aucun], «Mark3»: [91,92,98,97,87])
#Check pour aucune des valeurs dans la colonne Mark1
imprimer (pyspark_pandas.Mark1.notna ())

Sortir

0 vrai
1 faux
2 faux
3 vrai
4 vrai
Nom: Mark1, Dtype: Bool

Nous pouvons voir que dans la deuxième et la troisième rangée - Nan n'est pas disponible, donc à ces positions, Notna est retourné faux. Dans d'autres cas, il est revenu vrai.

Exemple 2
Dans cet exemple, nous vérifierons les valeurs NAN dans l'ensemble du Pyspark Pandas DataFrame en utilisant ISNA.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', None, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, aucun, aucun, 54,67], 'Mark2': [100, 67,96,89, aucun], «Mark3»: [91,92,98,97,87])
#Check pour aucune des valeurs dans l'ensemble des données
imprimer (pyspark_pandas.notna ())

Sortir

Student_lastName Mark1 Mark2 Mark3
0 vrai vrai vrai vrai
1 faux faux vrai vrai
2 Vrai Faux True True
3 True True True True
4 vrai vrai faux vrai

Nous pouvons voir que Notna revient faux partout où nan existe.

pyspark.pandas.Trame de données.notnull

Notnull est similaire à Notna utilisé pour vérifier si la valeur n'est pas nul. S'il est nul, il reviendra faux à cette valeur. Sinon, il renvoie vrai. Il ne prend aucun paramètre.

Syntaxe

pyspark_pandas.notnull

Où pyspark_pandas est le pyspark pandas dataframe.

Nous pouvons également vérifier dans des colonnes particulières.

Syntaxe

pyspark_pandas.colonne.notnull

Où la colonne est le nom de la colonne.

Exemple 1
Dans cet exemple, nous vérifierons les valeurs NAN dans la colonne Mark1 en utilisant Notnull.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', None, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, aucun, aucun, 54,67], 'Mark2': [100, 67,96,89, aucun], «Mark3»: [91,92,98,97,87])
#Check pour aucune des valeurs dans la colonne Mark1
imprimer (pyspark_pandas.Mark1.notnull ())

Sortir

0 vrai
1 faux
2 faux
3 vrai
4 vrai
Nom: Mark1, Dtype: Bool

Nous pouvons voir que dans la deuxième et la troisième rangée - Nan n'est pas disponible, donc à ces positions, Notnull est revenu faux. Dans d'autres cas, il est revenu vrai.

Exemple 2
Dans cet exemple, nous vérifierons les valeurs NAN dans l'ensemble du Pyspark Pandas DataFrame en utilisant Notnull.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', None, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, aucun, aucun, 54,67], 'Mark2': [100, 67,96,89, aucun], «Mark3»: [91,92,98,97,87])
#Check pour aucune des valeurs dans l'ensemble des données
imprimer (pyspark_pandas.notnull ())

Sortir

Student_lastName Mark1 Mark2 Mark3
0 vrai vrai vrai vrai
1 faux faux vrai vrai
2 Vrai Faux True True
3 True True True True
4 vrai vrai faux vrai

Nous pouvons voir que Notnull revient faux partout où nan existe.

Conclusion

Dans ce didacticiel Pyspark Pandas Dataframe, nous avons vu comment vérifier les valeurs NAN dans le DataFrame. ISNA est utilisé pour revenir vrai s'il est nan, et Notna et Notnull fonctionneront de la même manière en renvoyant vrai si la valeur n'est pas nan.