Les valeurs manquantes peuvent être problématiques dans certaines circonstances. Ainsi, nous avons parfois besoin de spécifier des objets avec des valeurs non manquantes. Une méthode pour localiser les colonnes avec beaucoup de données manquantes consiste à utiliser la méthode du nombre de pandas.
La fonction Pandas Count () est une méthode pour calculer le nombre de cellules non Na dans chaque segment ou colonne. De plus, travailler avec des données non skinming est également pertinente. Lorsque vous traitez avec des ensembles de données, une grande compétence est la capacité de présenter des résultats naturellement. L'utilisation d'un graphique basé sur l'axe est un moyen courant d'afficher des données. Le Python Fonction Count () renvoie le nombre de fois que la sous-chaîne apparaît dans la chaîne et le nombre de valeurs dans les colonnes ou les lignes d'un dataframe. Nous allons donc expliquer comment utiliser la fonction de comptage sur Dataframes dans cette partie.
Syntaxe pour la fonction Pandas Count ()
La méthode du nombre a une syntaxe relativement simple; Cependant, il existe plusieurs approches différentes pour l'utiliser et certaines options qui peuvent changer son fonctionnement. Il vous suffit de spécifier le nom de DataFrame suivi de ".count () ”pour invoquer la fonction de nombre pour un dataframe. Ainsi, en supposant que votre dataframe est appelée «dataframe», vous pouvez utiliser le script «DataFrame.count () ”pour déterminer le montant des entrées non manquantes pour toutes les colonnes. À l'intérieur des supports, vous pouvez également utiliser quelques arguments facultatifs que nous expliquerons un peu.
Ici, le «niveau» indique les diverses indextes de l'axe, et si l'axe est hiérarchique, la méthode du nombre () de DataFrame finit par s'accident et cesse de répondre aux appels de programme, laissant le programme suspendu au programme. Le terme «numérique» fait référence à la compatibilité du programme avec les données numériques, y compris les valeurs entières, flottantes et logiques. Puisqu'il doit toujours revenir à DataFrame lorsque le niveau est fourni, il prend la fausse valeur par défaut. L'évaluation par le programme des lignes et des colonnes est fournie sur «l'axe». La méthode Count () utilise l'argument de l'axe pour spécifier des colonnes et des lignes spécifiques pour prendre en compte chaque fois que le résultat doit être produit par l'application en utilisant des pandas.
Après avoir examiné la syntaxe, examinons quelques démonstrations de l'approche du nombre de Pandas dans la pratique. Nous explorerons quelques instances de façons de compter les valeurs dans un dataframe, compter les entrées dans une colonne particulière et quelques autres applications.
Exemple 1: Comptez le nombre d'enregistrements dans toutes les colonnes d'un dataframe à l'aide de la méthode Pandas Count ()
Vous devrez exécuter un code préparatoire avant de pouvoir compiler toutes les instances. Nous devons importer les bibliothèques pertinentes, puis charger / créer un dataframe, en particulier.
Tout d'abord, nous importons la bibliothèque Numpy en tant que NP et Pandas Library et lui donnons le nom PD dans le programme précédent. Nous pouvons maintenant commencer à construire notre Fondamental DataFrame à mesure que nous obtenons l'accessibilité à la bibliothèque Pandas.
En commençant par le code principal, vous pouvez voir ici que nous avons utilisé un NP.propriété nan et l'a fait égaler à Nan. L'acronyme Nan, qui fait référence à «pas un nombre», désigne les nombres qui ne sont pas énoncés. De plus, les entrées manquantes dans un ensemble de données sont représentées à l'aide.
Maintenant, nous allons construire un dataframe avec certaines valeurs nulles en utilisant la fonction Pandas Dataframe. Le code ici a créé une variable nommée «DF» et le résultat de l'invoquer le PD.La fonction DataFrame () est ensuite attribuée à cette variable créée. À l'intérieur des parenthèses du PD.Fonction DataFrame (), nous avons utilisé les accolades bouclées et rédigé les noms des colonnes que nous voulons avoir dans le DataFrame. Nous avons créé quatre colonnes: nom, chimie, anglais et science. Ensuite, nous avons attribué toutes les colonnes avec différentes valeurs. Nous devons garder toutes les colonnes de la même taille. La fonction d'impression est invoquée pour imprimer le dataframe.
La sortie montre la dataframe suivante:
Maintenant, pour chaque colonne de notre dataframe, nous allons calculer la quantité d'enregistrements non nuls. La fonction Count () pour une dataframe est appliquée de cette manière dans l'approche la plus simple.
Dans ce cas, nous appliquons Count () ici sur le dataframe «DF» global. Pour ce faire, nous avons entré le nom de DataFrame, «DF», suivi par le .Fonction Count ().
Lorsque nous exécutons le code précédent, il nous donnera le résultat indiqué dans l'image suivante:
Vous pouvez obtenir le montant total des entrées non manquantes pour chaque colonne dans le résultat.
Notre DataFrame comprend un total de six rangées. Vous pouvez remarquer que la variable «nom» a six valeurs dans ce cas. Il n'y a pas d'espaces vides dans cette variable. Cependant, des valeurs spécifiques contiennent moins de six. Par exemple, la science a quatre entrées non manquantes, tandis que la chimie en a cinq. Pour cette instance, il applique ses paramètres par défaut au paramètre.
Avoir ces connaissances peut être utile lors du nettoyage des données. Le développement d'un algorithme d'apprentissage automatique pourrait également être avantageux car des catégories de modèles spécifiques n'accepteront pas les données manquantes.
Exemple 2: Comptez le nombre d'enregistrements dans toutes les lignes d'un dataframe à l'aide de la méthode Pandas Count ()
Maintenant, déterminons le nombre d'entrées non manquantes dans les lignes de la dataframe spécifiée.
La méthode Count () est généralement utilisée pour énumérer les entrées non manquantes des colonnes. Cependant, il peut y avoir des situations où vous devriez plutôt regarder les lignes. Nous utiliserons la propriété AXIS pour accomplir cela.
Après la construction de données de données, le DF.La méthode count () calcule le nombre de valeurs dans chaque ligne tout en ignorant toutes les entrées nul ou nan. Les lignes sont représentées par l'axe = 1. Par conséquent, nous demandons au code de compter les entrées dans les lignes de DataFrame.
En conséquence, ce programme considère la méthode Count (), publie la ligne DataFrame comme affiché dans la capture d'écran ci-dessous, puis remonte à la fonction Pandas.
Nous avons examiné les données, donc nous savons que quatre colonnes sont dans notre dataframe. Ainsi, une ligne entièrement peuplée devrait avoir quatre valeurs non manquantes. Cependant, vous pouvez observer que certaines lignes ont trois ou deux données non manquantes. Il y a quatre entrées dans la première, la deuxième et la dernière rangée. Cela indique qu'il manque des données dans certaines lignes. Cela pourrait être bien, mais peut-être pas, selon vos actions.
Le réglage axe = «colonnes» obtiendra à la place le même résultat. Étant donné que l'axe = 1 et l'axe = «colonnes» sont équivalents, la quantité de données non manquantes pour les lignes est fournie lorsque vous choisissez Axis = «Colonnes."
Cela donnera le même résultat que celui indiqué précédemment.
Cependant, nous vous conseillons fortement d'utiliser cette syntaxe alternative et utilisons à la place axe = 1 car il est assez difficile de saisir et a à peine du sens si vous connaissez les axes.
Conclusion
Dans cet article, nous avons appris à compter les valeurs dans un pandas dataframe. Le Pandas Dataframe.la méthode count () aide dans notre analyse des nombres dans le python dataframe. Nous avons d'abord créé un DataFrame à l'aide de la fonction Pandas DataFrame, puis appliqué la méthode du nombre de dataframes. Par la suite, nous vous avons expliqué en comptant les données dans les colonnes et les lignes. Nous espérons que cet article augmentera vos connaissances.