Compte de fréquence des pandas

Compte de fréquence des pandas
Vous apprendrez à compter les occurrences de données ou de valeur dans une colonne de ce tutoriel Pandas. Dans la science des données, il y a des cas où nous devons déterminer la fréquence à laquelle une valeur spécifique se produit dans une colonne spécifique d'une dataframe. Cela peut se produire, par exemple, lorsque vous souhaitez comparer seulement une petite gamme de valeurs potentielles. Si vous souhaitez compter la quantité de valeurs en double ou répétées dans une colonne, c'est un autre exemple. De plus, nous pourrions avoir besoin de compter les observations qui constituent un facteur ou qui ont besoin de connaître la proportion d'hommes et de femmes dans la collecte de données par exemple.

Comment utiliser la fonction moyenne des pandas

Nous devons déterminer le nombre de fréquences de données / valeurs ou d'éléments dans une ou plusieurs des colonnes d'un Pandas DataFrame. Il existe plusieurs façons d'accomplir cela. Nous discuterons de quelques méthodes pour compter les occurrences ou la fréquence des éléments ou des valeurs dans la colonne d'une dataframe.

Exemple 1: Compter la fréquence de la colonne à l'aide de la fonction Value_Coutets ()

La méthode Value_Coutets () dans Pandas renvoie une série avec la fréquence des valeurs uniques. La série résultante est dans l'ordre décroissant par défaut et dépourvu de toutes les valeurs NA. Les «pandas.Série ”L'objet convient à une utilisation avec cette fonction (Value_Coutets ()). Le nombre de fréquences des valeurs dans une seule colonne peut être obtenu en utilisant cette méthode car les objets Pandas DataFrame sont le groupe d'objets série. Nous devons d'abord créer un dataframe pour démontrer cet exemple. Les «pandas.La fonction DataFrame () »est utilisée pour générer le DataFrame. Ainsi, nous devons d'abord importer le package Pandas.


Dans le PD.Fonction DataFrame (), nous avons utilisé un dictionnaire Python pour générer notre DataFrame. Nous avons attribué les colonnes dans notre DataFrame avec les étiquettes «X» et «Y». Nous affichons notre dataframe «DF» à l'aide de la méthode print ().


In the newly created “df” DataFrame, there are two columns - “X” column stores the integer values ​​(1, 1, 4, 3, 5, 1, 4, 3, 5, 4) and “Y” column stores the Valeurs de cordes («Q», «R», «T», «Q», «Q», «T», «R», «Q», «T», «R»). Vous pouvez observer qu'il y a une répétition dans les données des deux colonnes. Nous pouvons utiliser la fonction Value_Countets () pour calculer la fréquence des données dans une colonne spécifique. Comptons la fréquence des données dans la colonne «Y».


La fonction a renvoyé une série qui a le nombre de valeurs distinctes. La valeur «Q» se produit 4 fois et les valeurs «R» et «T» se produisent 3 fois dans la colonne «Y». Comptons également les valeurs uniques de la colonne X.


On peut voir que les valeurs «1» et «4» se produisent 3 fois dans la colonne «x», tandis que les valeurs «3» et «5» se produisent 2 fois.

Exemple 2: Compter la fréquence de colonne en utilisant le groupe.COUNTS () Fonction

Dans cet exemple, nous regroupons les lignes par colonne à l'aide du Pandas DataFrame.Fonction GroupBy () et utilisez la méthode Count () pour déterminer le nombre de valeurs distinctes pour chaque groupe, ignorant les valeurs non et nan. Créons d'abord un dataframe où nous appliquons le groupe.COUNTS () Fonction.


Nous avons utilisé un dictionnaire Pandas pour créer notre DataFrame après l'importation du module Pandas. Les noms de nos colonnes sont spécifiés comme «Col1» et «Col2».


Dans la colonne «COL1», nous avons les données entières (8, 6, 5, 8, 8, 7, 7, 9, 5, 7). Dans la colonne «Col2», nous avons les données de cordes («garçon», «garçon», «fille», «garçon», «garçon», «fille», «fille», «fille», «garçon», « garçon"). Maintenant, nous appliquons le groupe.Counts () Fonction pour calculer la fréquence des valeurs dans chaque colonne.


Pour faire des calculs, nous avons divisé les données en différents groupes en utilisant la fonction GroupBy (). Ensuite, la fonction Count () est appliquée pour compter les fréquences des valeurs distinctes dans la colonne spécifiée du dataframe. La valeur «5» se produit 2 fois. Les valeurs «6» et «9» se produisent une fois. Alors que les valeurs «7» et «8» se produisent 2 fois dans la colonne «Col1». Maintenant, appliquons le groupe.Fonction Count () sur la colonne "Col2".


La fonction a déterminé la fréquence des valeurs «garçon» et «fille» comme 6 et 4 fois, respectivement.

Exemple 3: Compter la fréquence de colonne en utilisant le groupe.Fonction size ()

La fréquence des éléments dans les colonnes uniques peut être comptée en utilisant cette méthode. Pour obtenir un objet DataFrame avec un nombre de fréquences, nous pouvons appliquer la méthode Count () à un objet DataFrame qui est regroupé par une seule colonne. Tout d'abord, une dataframe qui contient au moins une colonne répétitive est créée afin que nous puissions utiliser la fonction Count () pour déterminer la fréquence des valeurs. Nous importons d'abord le module Pandas avant de créer un dataframe. Ensuite, en utilisant le PD.Fonction DataFrame (), nous créons notre DataFrame.


Dans la précédente DataFrame, nous avons deux colonnes - la colonne «Nom» avec des valeurs («Alex», «Jack», «Alex», «Ali», «Jack», «Jack», «Alex», «Alex», «Ali», «Alex», «Ali», «Ali», «Jack», «Alex») et la colonne «Grade» qui contient les notes des individus («A», «A», «B», « B »,« B »,« B »,« A »,« C »,« A »,« C »,« C »,« C »,« A »,« B »). Maintenant, pour trouver le nombre de fréquences de ces colonnes, nous utilisons le groupe.Fonction size (). Un int qui représente le nombre d'éléments dans cet objet peut être obtenu en utilisant l'attribut de taille. Si la série donne le nombre de lignes et si le dataframe renvoie les lignes totales multipliées par le nombre de colonnes.


Cela montre qu'il y a deux occurrences où «Alex» a une valeur de qualité de «A». Il y a aussi deux occurrences où «Alex» a une valeur de qualité de «B» et «C». «Ali» s'est produit 1 fois avec des notes «A» et «B», tandis que 2 fois avec la valeur de grade de «C». «Jack» s'est produit deux fois avec des notes «A» et «B».

Exemple 4: Compter la fréquence de colonne en créant un tableau de fréquence pour une ligne spécifique

Nous pouvons appliquer la méthode crosstab () pour déterminer les fréquences dans un pandas dataframe.

Maintenant, supposons que nous devons créer une dataframe avec des détails sur le sexe, l'âge et la note de la lettre de dix étudiants distincts.


Nous avons créé le DataFrame requis avec trois colonnes - la colonne de grade («A», «B», «A», «B», «C», «B», «B», «C», «A», « A ”), la colonne d'âge (17, 19, 18, 17, 19, 17, 18, 18, 17, 19), et la colonne de genre (« F »,« M »,« F »,« M », «F», «F», «M», «M», «F», «F»). Maintenant, nous utilisons la fonction crosstab () pour créer un tableau de fréquence. Un tableau de bilan transversal créé par la méthode Crosstab () peut être utilisé pour afficher la fréquence à laquelle les différents groupes de données apparaissent.


À l'intérieur du PD.Fonction Crosstab (), nous avons spécifié la colonne «Grade» dans le paramètre d'index pour calculer la fréquence des données dans la colonne et spécifié le paramètre des colonnes comme «fréquence» pour stocker les valeurs / fréquences de retour des données de groupe.

Conclusion

Dans ce didacticiel Pandas, nous avons discuté de la façon de compter les événements de données ou de valeur dans une colonne de Pandas DataFrame. Nous avons essayé d'enseigner comment utiliser les fonctions "Value_Counts ()" et "GroupBy ()" ainsi que les attributs "size ()" et "count ()" pour compter la fréquence des données dans la colonne spécifiée. Nous avons également vu comment compter la fréquence d'une colonne en créant un tableau de fréquence à l'aide de la fonction crosstab ().