Pandas Groupby Count District

Pandas Groupby Count District

Cet article vous apprendra à compter les valeurs distinctes pour chaque groupe après avoir regroupé les données à l'aide de la méthode GroupBy (). Avec l'aide des pandas.Méthode groupby (), nous pouvons facilement diviser les données en plusieurs groupes afin que les fonctions d'agrégation puissent être appliquées à chaque groupe. Dans Pandas, cette technique est une partie essentielle de l'analyse des données. Il existe plusieurs façons de déterminer le nombre de valeurs uniques présentes dans une colonne de DataFrame pour un groupe de données. Utilisation de DataFrame.groupBy (), nunique (), dataframe.agg () et série.Value_Coutets () Méthodes, etc., Nous pouvons obtenir le nombre de valeurs distinctes pour les groupes.

Comment compter les valeurs uniques après le regroupement des données dans Pandas

Tout d'abord, nous diviserons les données à l'intérieur de la colonne ou de la série en groupes de catégories. Ensuite, nous utiliserons une fonction pour calculer le nombre de données / valeurs uniques pour le groupe de catégories. Dans les exemples suivants, nous utiliserons différentes fonctions pour compter les données distinctes pour les groupes de catégories.

Exemple # 01: Comptez les valeurs distinctes d'une colonne DataFrame à l'aide de la méthode Values_Count ()

La fonction valeurs_count () renvoie un objet avec des dénombrements de valeurs distinctes. L'objet résultant sera organisé par ordre décroissant, le premier élément apparaissant le plus fréquemment. Par défaut, il exclut les valeurs NA. Créons d'abord un dataframe. Le DataFrame sera créé après l'importation du module Pandas.

Nous avons créé notre DataFrame en utilisant un dictionnaire à l'intérieur du PD.Fonction DataFrame (). Notre dataframe se compose de deux colonnes, «étudiant» et «âge». L'étudiant de la colonne contenant les valeurs de données ('Dave', 'Sybil', 'Dave', 'Jenny', 'Dave', 'Dave', 'Sybil', 'Jenny', 'Jenny', 'Sybil') et le «L'âge» de la colonne contient les valeurs (14, 15, 16, 16, 15, 14, 15, 14, 14, aucune). Voyons maintenant les données et déterminons les valeurs uniques totales pour les groupes.

La fonction a renvoyé les valeurs distinctes totales pour les groupes créés dans la colonne «étudiant». Par exemple, pour le groupe «Dave», la valeur de l'âge «14» dans la colonne «Âge» se produit deux fois, et les valeurs «15» et «16» se produisent une seule fois, et ainsi de suite. Comme indiqué, la fonction a également ignoré la valeur manquante.

Exemple # 02: Comptez les valeurs distinctes de plusieurs colonnes à l'aide de la méthode VALEUR_COUNT ()

Dans l'exemple précédent, nous avons compté les valeurs distinctes d'une seule colonne pour chaque données / valeur groupées. Maintenant, nous déterminerons le nombre de valeurs distinctes de plusieurs colonnes après le regroupement d'une colonne de DataFrame. Nous avons besoin d'une autre dataframe avec au moins trois colonnes.

Nous avons créé notre DataFrame avec trois colonnes, je.e., «nom», «marques» et «grade». Les marques de colonnes stockent les données («Tyson», «Nancy», «Nancy», «Tyson», «Jimmy», «Jimmy», «Jimmy», «Nancy», «Tyson»). Tandis que les colonnes, les «marques» et les «grades» contiennent les valeurs (15, 15, 17, 17, 18, 18, 14, 14, 14) et («b», «b», «a», ' A ',' a ',' a ',' b ',' b ',' b ') respectivement. Maintenant, comptons les valeurs uniques de la colonne «marques» et «grades» après le regroupement des données de la colonne «nom».

La fonction Value_Coutets () est appliquée à une liste contenant les étiquettes des colonnes. La fonction a renvoyé le nombre de valeurs distinctives pour chaque données de groupe dans la colonne «nom».

Exemple # 3: comptez les valeurs distinctes en utilisant Groupby.Fonction NUnique ()

Le nombre de valeurs distinctes pour chaque colonne est renvoyée par la méthode NUnique (). La fonction NUnique () recherche une colonne par colonne et récupère le nombre de valeurs de données distinctes pour chaque ligne de dataframe lorsque l'axe de la colonne est spécifié (axe = 'colonnes')). Lorsque vous utilisez la méthode NUnique () pour déterminer le nombre de valeurs distinctes, nous créerons d'abord un dataframe avec au moins une colonne contenant des données répétitives.

Nous avons créé deux colonnes, je.e., «Employé» et «salaire», dans notre DataFrame. L'employé de la colonne stocke des données sous forme de chaîne («gestionnaire», «comptable», «gestionnaire», «gestionnaire», «commis», «comptable», «greffier», «commis», «comptable», «commis») et Le «salaire» de la colonne contient les valeurs (15000, 14000, 15000, 14000, 12000, 13000, 12000, 14000, 15000, 13000). Trouvez les valeurs distinctes du salaire de la colonne pour les groupes de colonne «employé».

Il y a trois valeurs uniques dans la colonne «salaire» pour les groupes, «comptable» et «greffier», dans la colonne «employé». Le nombre de valeurs distinctes pour le groupe «Manager» est 2.

Exemple n ° 4: Comptez les valeurs distinctes de plusieurs colonnes à l'aide de la fonction NUnique ()

Maintenant, nous allons calculer le nombre de valeurs uniques pour plusieurs colonnes DataFrame. Ajoutons une autre colonne dans le DataFrame, que nous avons créé dans l'exemple # 3.

Nous avons ajouté une nouvelle chronique «post» dans notre DataFrame avec les valeurs de données («junior», «junior», «senior», «junior», «senior», «senior», «senior», `` junior », ' Junior ',' Junior '). Maintenant, nous allons compter les valeurs uniques des colonnes «post» et «salaire» pour chaque données de groupe dans la colonne «Employee». Nous utiliserons la fonction AGG () pour trouver le nombre de valeurs uniques pour plusieurs colonnes.

Nous avons regroupé les données dans la colonne «Employee» et appliqué la fonction AGG (). À l'intérieur de la fonction AGG (), nous avons passé un dictionnaire avec des noms de colonne comme des touches et les chaînes de nouins comme valeurs des clés. La fonction a renvoyé le nombre de valeurs uniques dans les colonnes «post» et «salaire» pour chaque données de groupe, i.e, «comptable», «greffier» et «gestionnaire».

Nous pouvons également déterminer le nombre de valeurs distinctes en utilisant la fonction NUnique () sans la méthode AGG (). Pour cela, nous allons d'abord créer une liste avec des étiquettes de colonnes, dont nous voulons compter les valeurs distinctes. Ensuite, nous utiliserons les fonctions GroupBy () et NUnique sur les colonnes spécifiques du DataFrame à l'intérieur de la liste au lieu de l'ensemble de DataFrame 'DF'.

Sans la fonction agg (), nous avons obtenu les mêmes résultats qu'auparavant lorsque nous avons appliqué la fonction agg ().

Nous pouvons également regrouper plusieurs colonnes et trouver le nombre de valeurs distinctes pour le groupe et le sous-groupe. Groupons les données des colonnes «employé» et «publication», puis trouvons les valeurs distinctes dans la colonne «salaire» pour chaque groupe et sous-groupe.

Exemple # 5: Déterminer les valeurs distinctes de la colonne DataFrame à l'aide d'une fonction unique ()

Lorsque vous travaillez avec une colonne particulière d'un dataframe, la fonction unique () est utilisée et renvoie toutes les données / valeurs uniques de la colonne. Tout d'abord, nous créerons une dataframe à partir de laquelle nous trouverons les valeurs uniques dans la colonne spécifiée pour les données de groupe d'une seule colonne, regroupées en utilisant la fonction GroupBy ().

Il y a deux colonnes dans notre DataFrame, je.e., «Sexe» et «âge». Les valeurs de données dans la colonne «genre» sont («masculin», «masculin», «masculin», «femelle», «masculin», «femelle», «femelle», «masculin», «femelle», «femelle») et la colonne «Âge» stockage les valeurs (19, 19, 20, 18, 20, 18, 19, 20, 17, 20). Maintenant, nous regrouperons les données dans la colonne «genre» en utilisant la fonction groupby (), et nous trouverons les valeurs distinctes en âge de colonne pour chaque groupe.

La fonction a renvoyé un dataframe avec des valeurs distinctes d'une colonne au lieu de dénombrements de valeurs distinctes. Cependant, on peut voir qu'il existe quatre valeurs uniques (18, 19, 17, 20) pour le groupe féminin et 2 valeurs uniques pour le groupe du groupe dans la colonne «âge».

Conclusion

Dans ce didacticiel Pandas, nous avons discuté de la façon de déterminer ou de compter les valeurs distinctes ou les données uniques dans une colonne ou des colonnes du DataFrame dans Pandas. Maintenant, vous pourrez peut-être compter les valeurs uniques en pandas. Nous avons mis en œuvre plusieurs exemples dans cet article pour vous apprendre à compter les valeurs distinctes d'une colonne DataFrame en utilisant les fonctions valeurs_count (), nunique () et unique () après le regroupement des données à l'aide de la fonction groupBy ().