Pandas pour vérifier la valeur de la cellule est nan

Pandas pour vérifier la valeur de la cellule est nan
La documentation principale des pandas est de dire que les valeurs nuls sont des valeurs manquantes. Nous pouvons désigner les valeurs manquantes ou nulles comme nan dans les pandas comme le font la plupart des développeurs. Les mots clés NAN et aucun sont tous deux utilisés par les développeurs pour afficher les valeurs manquantes dans le dataframe. La meilleure chose dans les pandas est qu'il traite à la fois nan et aucun de la même manière. Pour vérifier la valeur manquante d'une cellule, Pandas.Notnull reviendra faux dans les deux cas de nan et aucun si la cellule a nan ou aucune.

Ainsi, dans cet article, nous explorerons différentes méthodes pour vérifier si une valeur cellulaire particulière est nulle ou non (nan ou aucune).

Les différentes méthodes dont nous allons discuter sont:

  1. nul
  2. Isnan
  3. ISNA
  4. notnull

Discutons de chaque méthode en détail.

Méthode 1: Utilisation de la fonction ISNULL

Dans cette méthode, nous utiliserons une méthode très facile appelée iSnull () pour savoir si la cellule particulière a une valeur nan.

# Python Isnull.py
Importer des pandas en tant que PD
Importer Numpy comme NP
data = 'x': [1, 2, 3, 4, 5, np.Nan, 6, 7, NP.Nan, 8, 9, 10, NP.nan],
'y': [11, 12, np.Nan, 13, 14, NP.Nan, 15, 16, NP.NAN, NP.Nan, 17, NP.Nan, 19]
df = pd.DataFrame (données)
Imprimer (DF)
nan_in_df = df.ISNULL (DF.Iloc [5, 0])
print (nan_in_df)

Sortir: Python Isnull.py

x y
0 1.0 11.0
1 2.0 12.0
2 3.0 Nan
3 4.0 13.0
4 5.0 14.0
5 Nan Nan
6 6.0 15.0
7 7.0 16.0
8 Nan Nan
9 8.0 Nan
10 9.0 17.0
11 10.0 Nan
12 Nan ​​19.0
Vrai

Ligne 3 à 4: Nous importons les pandas de la bibliothèque et Numpy.

Ligne 6: Nous créons un dictionnaire avec des clés X et Y et leurs valeurs avec un certain NP.nan.

Ligne 8 à 10: nous convertissons le dictionnaire en dataframe, puis imprimons ce dataframe que nous pouvons voir dans la sortie ci-dessus.

Ligne 12 à 13: Nous appelons la méthode DataFrame ISNULL et vérifions une cellule particulière [5, 0] la valeur de la dataframe est nulle ou non. Dans ce cas, nous ne vérifions pas l'ensemble des données de données et la valeur de châssis de données unique. Il donne donc la sortie vraie, qui est montrée dans la sortie ci-dessus. La première valeur 5 [5, 0] qui représente la position d'index, et l'autre valeur, 0, représente le nom de l'index de la colonne.

Méthode 2: Utilisation de la méthode isnan ()

Dans l'exemple ci-dessus, nous avons vérifié la valeur NAN en utilisant la méthode ISNULL du DataFrame. Maintenant, nous allons utiliser une autre méthode appelée Isnan. Cette méthode appartient au Numpy et non au DataFrame. Le programme ci-dessous est pour ce qui ne vérifie que la cellule particulière.

# Nous pouvons également vérifier la valeur NAN Cell dans DataFrame
data = 'x': [1, 2, 3, 4, 5, np.Nan, 6, 7, NP.Nan, 8, 9, 10, NP.nan],
'y': [11, 12, np.Nan, 13, 14, NP.Nan, 15, 16, NP.NAN, NP.Nan, 17, NP.Nan, 19]
df = pd.DataFrame (données)
Imprimer (DF)
valeur = df.à [5, 'x'] # nan
ISNAN = np.Isnan (valeur)
Print ("===============")
print ("est une valeur à df [5, 'x'] nan:", Isnan)

Sortir:

x y
0 1.0 11.0
1 2.0 12.0
2 3.0 Nan
3 4.0 13.0
4 5.0 14.0
5 Nan Nan
6 6.0 15.0
7 7.0 16.0
8 Nan Nan
9 8.0 Nan
10 9.0 17.0
11 10.0 Nan
12 Nan ​​19.0
===============
Est la valeur à df [5, 'x'] nan: vrai

Ligne 2: Nous créons un dictionnaire avec des clés X et Y et leurs valeurs avec un certain NP.nan.

Ligne 4 et 5: nous convertissons le dictionnaire en dataframe, puis imprimons ce dataframe que nous pouvons voir dans la sortie ci-dessus.

Ligne 6: Nous avons filtré la valeur de cellule particulière en utilisant l'index et le nom de la colonne [5, 'x'] et avons attribué cette valeur à la valeur de la variable. La première valeur 5 qui représente la position d'index, et «x» représente le nom de la colonne.

Ligne 7: nous vérifions si la valeur est nan ou non.

Ligne 9: Nous imprimons enfin notre sortie qui montre que la valeur a nan est vraie.

Méthode 3: Valeur de Nan cellulaire dans une série utilisant ISNAN

Nous avons vérifié dans l'exemple précédent la valeur NAN dans une cellule DataFrame. Nous pouvons également vérifier à l'intérieur de la série Pandas si une valeur cellulaire est nan ou non. Alors voyons comment nous pouvons implémenter cela.

# Nous pouvons également vérifier la valeur NAN Cell dans la série DataFrame
série_df = pd.Série ([2, 3, np.nan, 7, 25])
Imprimer (série_df)
value = série_df [2] # nan
ISNAN = np.Isnan (valeur)
Print ("===============")
print ("est une valeur à df [2] nan:", Isnan)

Sortir:

0 2.0
1 3.0
2 Nan
3 7.0
4 25.0
dtype: float64
===============
Est la valeur à df [2] nan: vrai

Ligne 3: Nous avons créé la série Pandas.

Ligne 6: Nous attribuons la valeur cellulaire que nous voulons vérifier à une autre variable.

Ligne 7: Nous vérifions soit la valeur de cette variable est nan ou non.

Méthode 4: Utilisation de pandas.ISNA

Une autre méthode que nous pouvons utiliser est de vérifier si une valeur de cellule de dataframe particulière est nulle ou non en utilisant les pandas.Méthode ISNA.

data = 'x': [1,2,3,4,5, np.nan, 6,7, np.NAN, 8,9,10, NP.nan],
'y': [11,12, np.NAN, 13,14, NP.NAN, 15,16, NP.NAN, NP.Nan, 17, NP.Nan, 19]
df = pd.DataFrame (données)
Imprimer (DF)
Imprimer ("Vérification de la valeur NAN dans la cellule [5, 0]")
PD.ISNA (DF.Iloc [5,0])

Sortir:

x y
0 1.0 11.0
1 2.0 12.0
2 3.0 Nan
3 4.0 13.0
4 5.0 14.0
5 Nan Nan
6 6.0 15.0
7 7.0 16.0
8 Nan Nan
9 8.0 Nan
10 9.0 17.0
11 10.0 Nan
12 Nan ​​19.0
Vérification de la valeur NAN dans la cellule [5, 0]
Vrai

Ligne 1: Nous créons un dictionnaire avec des clés X et Y et leurs valeurs avec un certain NP.nan.

Ligne 3 à 5: Nous convertissons le dictionnaire en dataframe, puis imprimons ce dataframe que nous pouvons voir dans la sortie ci-dessus.

Ligne 8: Nous vérifions si la valeur de la cellule [5, 0] est nan ou non. La première valeur 5, qui représente la position d'index, et 0 représente le nom de la colonne. Nous imprimons enfin notre sortie qui montre que la valeur a nan est vraie.

Méthode 5: Utilisation de pandas.Méthode notnull

Une autre méthode à travers laquelle nous pouvons vérifier la valeur de cellule particulière est NAN ou ne pas utiliser la méthode notnull. Dans cette méthode, si la valeur de la cellule est manquante ou manquante, elle renverra un faux booléen, comme indiqué dans le programme ci-dessous.

data = 'x': [1,2,3,4,5, np.nan, 6,7, np.NAN, 8,9,10, NP.nan],
'y': [11,12, np.NAN, 13,14, NP.NAN, 15,16, NP.NAN, NP.Nan, 17, NP.Nan, 19]
df = pd.DataFrame (données)
Imprimer (DF)
Imprimer ("Vérification de la valeur NAN dans la cellule [5, 0]")
PD.notnull (df.Iloc [5,0])

Sortir:

x y
0 1.0 11.0
1 2.0 12.0
2 3.0 Nan
3 4.0 13.0
4 5.0 14.0
5 Nan Nan
6 6.0 15.0
7 7.0 16.0
8 Nan Nan
9 8.0 Nan
10 9.0 17.0
11 10.0 Nan
12 Nan ​​19.0
Vérification de la valeur NAN dans la cellule [5, 0]
FAUX

Ligne 1: Nous créons un dictionnaire avec des clés X et Y et leurs valeurs avec un certain NP.nan.

Ligne 3 à 5: Nous convertissons le dictionnaire en dataframe, puis imprimons ce dataframe que nous pouvons voir dans la sortie ci-dessus.

Ligne 8: Nous vérifions si la valeur de la cellule [5, 0] n'est pas nan. La première valeur 5, qui représente la position d'index, et 0 représente le nom de la colonne. Nous imprimons enfin notre sortie qui montre que la valeur a NAN et revient comme fausse parce que nous vérifions si la cellule n'est pas Null, mais la cellule est en fait nul.

Conclusion

Dans ce blog, nous avons vu des méthodes différentes pour déterminer une valeur cellulaire particulière est nan ou aucune parce que parfois nous devons découvrir la valeur cellulaire et non l'ensemble des données. C'est pourquoi ce blog est particulier pour la mise au point de la valeur cellulaire. Nous avons vu Pandas et Numpy, les deux méthodes pour vérifier les valeurs manquantes. Nous nous concentrons sur le concept uniquement pour montrer des tutoriels simples et ne pas utiliser de boucle d'itération. Toutes les méthodes ci-dessus dont nous avons discuté sont en cours d'exécution rapide même si vous souhaitez vérifier l'ensemble des données.

Le code de ce blog est disponible sur le lien github.