Pandas drop na

Pandas drop na
Pandas, une bibliothèque open source pour Python, est sans aucun doute la boîte à outils la plus populaire pour la recherche et l'évaluation des données. C'est aussi un bon choix pour les tâches de transformation des données ad hoc. En raison de sa représentation de données exceptionnellement flexible en utilisant des données de données et de la pléthore de méthodes disponibles pour modifier les données stockées dans ces cadres de données. Tous les problèmes de données du monde réel pourraient entraîner des données manquantes et ces ensembles de données doivent être gérés correctement. Les données pourraient être manquantes pour de nombreuses raisons. Ce n'est pas inhabituel lorsqu'il s'agit de données gravement gâchées. Comprendre comment faire face aux valeurs manquantes est une compétence essentielle pour tout professionnel des données. Dans ce tutoriel, vous apprendrez à gérer les valeurs nuls en utilisant les pandas «DataFrame.Méthode dropna () ”.

Méthode Pandas Dropna ()

Dans un Pandas DataFrame, vous devrez peut-être supprimer les lignes avec des valeurs NAN. Heureusement, ce serait simple à accomplir avec la méthode Pandas «Dropna ()». La syntaxe pour utiliser la méthode «dropna ()» est la suivante:

Le premier paramètre est «l'axe». Pour les colonnes et les lignes, «l'axe» accepte les valeurs int ou chaîne. Les entrées entières peuvent être 1 ou 0 et les entrées de chaîne peuvent être des «colonnes» ou «index». Le paramètre "comment" accepte uniquement les valeurs de chaîne de deux types («n'importe quel» ou «tout»). Le «tout» supprime la ligne / colonne si une valeur est nul et «tout» supprime la ligne / colonne lorsque toutes les entrées sont nuls. Le "battre" Accepte une valeur entière qui spécifie le nombre minimum d'entrées NA à tomber. Le «Sous-ensemble» est un tableau qui restreint l'opération de suppression aux lignes / colonnes données via la liste. Le dernier paramètre "en place" est un booléen qui, s'il est vrai, modifie le cadre de données lui-même.

Exemple # 1: Utilisation de la méthode Pandas Dropna () pour déposer des lignes avec des valeurs nulles

Dans cette illustration, nous verrons comment supprimer toutes les valeurs nulles dans les lignes d'une dataframe en utilisant la méthode Pandas «Dropna ()».

Nous avons lancé l'outil «Spyder» et commencer le programme. Dans le fichier Python, nous importons les deux bibliothèques requises. La première boîte à outils que nous chargeons dans le fichier est les pandas en tant que «PD» et le deuxième package est la bibliothèque Numpy en tant que «NP». Nous avons maintenant aliasé ces deux bibliothèques et pouvons y accéder en utilisant ces abréviations. La bibliothèque Pandas est importée pour être en mesure d'utiliser des méthodes Pandas tandis que la bibliothèque Numpy aidera à traiter les valeurs NAN dans le DataFrame.

Nous devons créer une dataframe avec certaines valeurs nulles. Pour cela, Pandas nous fournit une méthode «PD.Trame de données()". Nous invoquons cette méthode pour créer un DataFrame avec quatre colonnes «First», «Second», «Third» et «Quatrième». La colonne «First» a ces valeurs «np.Nan "," 98 "," 66 "," NP.Nan "," 14 "," 30 "," 26 "," 79 "et" 11 ". La colonne «Second» est de stocker les valeurs «NP.Nan ”,« 29 »,« 14 »,« 16 »,« 27 »,« 10 »,« 32 »,« 19 »et« 21 ». La colonne «Troisième» détient des valeurs qui sont «10», «45», «7», «13», «5», «7», «8», «9» et «18». La dernière colonne «Quatrième» a des entrées «16», «7», «10», «np.Nan "," 6 "," 7 "," 9 "," 20 "et" 30 ". Toutes les colonnes contiennent neuf entrées.

Nous construisons un «compteur» de l'objet DataFrame et lui attribuons le résultat de l'invoquer le «PD.Fonction DataFrame () ”. Ainsi, le dataframe est stocké dans la variable «compteur». Nous affichons le dataframe sur la console Python en utilisant la méthode «print ()» de Python.

Pour exécuter le programme, nous appuyons sur l'option «Exécuter le fichier» sur l'outil Spyder. Le dataframe résultant affiché sur le terminal nous montre que la colonne «First» a deux valeurs NAN, la colonne «Second» et «Quatred» ont une valeur NAN dans chacune, tandis que la colonne «Troisième» n'a pas de valeurs NAN.

Nous apprenons maintenant la technique pour supprimer les lignes avec les valeurs NAN dans un dataframe à l'aide de Pandas «DataFrame.Méthode dropna () ”.

Nous appelons la méthode Pandas «Dropna ()» avec le nom du «compteur» de DataFrame «Counter». Ici, nous passons deux paramètres à cette fonction «axe» et «comment». Les valeurs du paramètre «axe» sont définies sur «0» qui indique les lignes, tandis que le «comment» est spécifié dans les valeurs «tout» parce que nous voulons laisser tomber les lignes qui ont une valeur nan. Une variable «manquant» est créée pour stocker la sortie de la méthode «dropna ()». Enfin, nous invoquons la méthode «print ()» pour montrer le contenu de la variable «manquante».

Ici, nous avons des données résultant. Dans ce DataFrame, nous pouvons observer que les lignes contenant des valeurs nulles sont rejetées à partir du dataframe. Les lignes avec des index 0 et 3 sont supprimées car celles-ci ont des valeurs nan.

Nous pouvons également vérifier la taille du dataframe en utilisant la méthode «len ()». Nous invoquons la méthode «print ()» et fournissons la fonction «len ()» comme son paramètre. Dans la première fonction «len ()», nous avons trouvé la taille du «compteur» Dataframe et dans la prochaine fonction «len ()» La longueur de la dataframe «manquante» est calculée. Ensuite, nous avons soustrait les deux longueurs pour trouver le nombre de lignes avec des valeurs nulles.

Ici, nous pouvons voir que l'ancien «compteur» de Dataframe avait 9 rangées, tandis que le nouveau DataFrame «manquant» a 7 lignes. Et les nombres de lignes qui ont des valeurs nulles sont 2.

Exemple # 2: Utilisation de la méthode Pandas Dropna () pour déposer des lignes avec des valeurs nulles en dessous d'un seuil spécifié

Pour cette instance, nous avons utilisé le dataframe créé dans l'exemple précédent. Nous utilisons une autre propriété fournie par la fonction «dropna ()».

Nous invoquons le «DataFrame.Méthode dropna () ”. Comme l'indique la syntaxe, le nom de DataFrame est fourni avec la fonction «dropna ()» comme «compteur.dropna () ". Les paramètres que nous utilisons ici sont «axe» et «thresh». Nous définissons «l'axe» sur «0» pour la goutte à ligne et le «Thresh» est défini sur «4», ce qui signifie que la fonction «dropna ()» vérifiera les lignes dans lesquelles le nombre de valeurs non nuls est Moins de 4. Quelle que soit la ligne qui a le nombre de valeurs non nuls inférieures à quatre, cela les laisse tomber. Nous stockons la sortie dans la variable «manquante» et l'affichons simplement en utilisant la méthode «print ()».

Dans l'image de sortie, un dataframe est présenté. Ici, la ligne 0 et la ligne 3 sont jetées car elles avaient un nombre de valeurs non nulles inférieures à 4.

Exemple # 3: Utilisation de la méthode Pandas Dropna () pour déposer des lignes avec des valeurs nulles pour une colonne spécifiée

En utilisant le dataframe de la première illustration, nous invoquons la méthode «dropna ()». Cette fois, nous l'utilisons pour déposer des lignes dans une colonne particulière. Pour éliminer les lignes avec des valeurs nulles dans une colonne spécifiée, nous avons un paramètre «sous-ensemble» de la fonction «dropna ()». La propriété «sous-ensemble» passe la colonne ou la ligne fournie comme une liste à la méthode «dropna ()». Ici, nous avons sélectionné la colonne «seconde» pour ce paramètre. Ensuite, nous montrons simplement le nouveau DataFrame sur la console.

La colonne «Second» a la première ligne contenant la valeur NAN, il est donc rejeté dans le nouveau DataFrame.

Conclusion

Travailler sur des données de données et rencontrer le problème de trouver des valeurs manquantes rend les choses en désordre. Traiter ces valeurs manquantes est une compétence d'apprentissage de base. Chaque fois que nous sommes coincés dans un tel défi, les pandas entrent en jeu. Les pandas nous fournissent la fonction «DataFrame.dropna () »pour gérer ces entrées nulles. Ce tutoriel a démontré la syntaxe de cette fonction avec tous ses paramètres. Nous avons effectué la mise en œuvre pratique des codes d'exemples Python pour supprimer des valeurs nulles en utilisant la méthode «dropna ()» avec différents arguments.