La science des données implique généralement des données manquantes. Soit la ligne entière peut être rejetée, soit une valeur peut être ajoutée à la combinaison de colonnes de ligne. La suppression de la ligne / colonne serait absurde car elle élimine une certaine métrique pour chaque ligne. Nan, qui signifie «pas un nombre», est l'une des façons typiques de montrer une valeur qui manque à un ensemble de données. Pour obtenir les résultats prévus, la manipulation de Nan est assez importante. Découvrons comment modifier les valeurs NAN dans une ligne ou une colonne d'un Pandas DataFrame à 0.
Méthode 1: Utilisation de Fillna ()
Les valeurs NA / NAN sont remplies de l'approche fournie en utilisant la fonction «Fillna ()». Il peut être utilisé en considérant la syntaxe suivante:
Si vous souhaitez remplir les valeurs NAN pour une seule colonne, la syntaxe est la suivante:
pandas.Dataframe_obj ['colonne'].Fillna (0)
Si vous souhaitez remplir les valeurs NAN dans l'ensemble des données, la syntaxe est la suivante:
pandas.Dataframe_obj.Fillna (0)
Exemple 1: colonne unique
Créons un dataframe nommé «Documents» avec deux colonnes qui incluent certaines valeurs NAN. Nous les créons en utilisant Numpy. Maintenant, remplissons les valeurs NAN avec 0 dans les deux colonnes, séparément.
importer des pandas
Importer Numpy
# Considérez le dataframe
Documents = Pandas.DataFrame ('Color': ["Red", "Blue", Numpy.nan, numpy.nan, numpy.nan],
'Taille': [Numpy.Nan, 45,60,78, Numpy.nan])
imprimer (documents, "\ n")
# Remplissez Nan avec 0 dans la colonne de taille.
Imprimer (documents [«taille»].fillna (0), "\ n")
# Remplissez Nan avec 0 dans la colonne de couleur.
Imprimer (documents [«couleur»].fillna (0))
Sortir:
Taille de couleur
0 Nan rouge
1 bleu 45.0
2 nan 60.0
3 Nan 78.0
4 Nan Nan
0 0.0
1 45.0
2 60.0
3 78.0
4 0.0
Nom: taille, dtype: float64
0 rouge
1 bleu
2 0
3 0
4 0
Nom: Couleur, Dtype: Objet
Explication:
Tout d'abord, nous remplissons les valeurs NAN avec 0 dans la colonne «Taille». Ensuite, nous remplissons les valeurs NAN avec 0 dans la colonne «Couleur».
Exemple 2: plusieurs colonnes
Remplissons les valeurs NAN avec 0 dans l'ensemble des données.
importer des pandas
Importer Numpy
# Considérez le dataframe
Documents = Pandas.DataFrame ('Color': ["Red", "Blue", Numpy.nan, numpy.nan, numpy.nan],
'Taille': [Numpy.Nan, 45,60,78, Numpy.nan])
# Remplissez Nan avec 0 dans une dataframe entière
imprimer (documents.fillna (0))
Sortir:
Taille de couleur
0 rouge 0.0
1 bleu 45.0
2 0 60.0
3 0 78.0
4 0 0.0
Explication:
Tout d'abord, nous remplissons les valeurs NAN avec 0 dans l'ensemble des données. Maintenant, il n'y a pas de valeurs NAN dans les «documents» DataFrame.
Méthode 2: Utilisation de remplacement ()
Pour remplacer une seule colonne de valeurs NAN, la syntaxe fournie est la suivante:
Nous devons passer les valeurs NAN qui doivent être remplacées par 0 comme premier paramètre et 0 comme deuxième paramètre qui remplace les valeurs NAN:
pandas.Dataframe_obj ['colonne'].remplacer (Numpy.nan, 0)
Alors que, pour remplacer l'ensemble des valeurs NAN de DataFrame, nous utilisons la syntaxe suivante:
pandas.Dataframe_obj.remplacer (Numpy.nan, 0)
Exemple 1: colonne unique
Créons un dataframe nommé «Orders» avec trois colonnes qui incluent certaines valeurs NAN. Nous les créons en utilisant Numpy. Maintenant, remplaçons les valeurs NAN par 0 dans les colonnes «prix» et «produit», séparément.
importer des pandas
Importer Numpy
# Considérez le dataframe
ordres = pandas.DataFrame ('Product': ["One", "Two", Numpy.nan, numpy.nan, numpy.nan],
'Price': [Numpy.Nan, 45,60,78, Numpy.nan],
'id': [1,2,3,4,5])
imprimer (ordres, "\ n")
# Remplacer Nan par 0 dans la colonne de prix.
Imprimer (commandes [«prix»].remplacer (Numpy.nan, 0), "\ n")
# Remplacez Nan par 0 dans la colonne du produit.
Imprimer (commandes [«produit»].remplacer (Numpy.nan, 0))
Sortir:
ID de prix du produit
0 un nan 1
1 deux 45.0 2
2 nan 60.0 3
3 Nan 78.0 4
4 nan nan 5
0 0.0
1 45.0
2 60.0
3 78.0
4 0.0
Nom: Prix, Dtype: Float64
0
1 deux
2 0
3 0
4 0
Nom: produit, dtype: objet
Explication:
Il y a trois valeurs dans la colonne «Prix» et deux valeurs dans la colonne «Produit». Tout d'abord, nous remplaçons les valeurs NAN par 0 dans la colonne «Prix». Ensuite, nous remplaçons les valeurs NAN par 0 dans la colonne «Produit».
Exemple 2: plusieurs colonnes
Créons un dataframe nommé «Orders» avec trois colonnes qui incluent certaines valeurs NAN. Nous les créons en utilisant Numpy. Maintenant, remplaçons les valeurs NAN par 0 dans les colonnes «prix» et «produit», séparément.
importer des pandas
Importer Numpy
# Considérez le dataframe
Documents = Pandas.DataFrame ('Color': ["Red", "Blue", Numpy.nan, numpy.nan, numpy.nan],
'Taille': [Numpy.Nan, 45,60,78, Numpy.nan])
# Remplacez Nan par 0 dans toute DataFrame
imprimer (documents.remplacer (Numpy.nan, 0), "\ n")
Sortir:
Taille de couleur
0 rouge 0.0
1 bleu 45.0
2 0 60.0
3 0 78.0
4 0 0.0
Il y a cinq valeurs NAN dans le dataframe des «ordres». Après cela, nous remplaçons les valeurs NAN par 0.
Conclusion
Traiter les entrées manquantes dans une dataframe est une exigence fondamentale et nécessaire pour réduire la complexité et gérer les données avec défi dans le processus d'analyse des données. Pandas nous offre quelques options pour faire face à ce problème. Nous avons apporté deux stratégies pratiques dans ce guide.