Pandas Groupby moyenne

Pandas Groupby moyenne

Lorsque nous ajoutons deux valeurs ou plus ensemble et que leur somme est divisée par le nombre total de valeurs ajoutées, le résultat est une moyenne. Pandas Mean renvoie la moyenne des données ou de la valeur le long d'un axe donné. Une série avec la moyenne à travers un axe sera retournée par Pandas si la méthode moyenne () est appliquée à un dataframe. Les pandas renvoient une valeur numérique (numéro unique) si "Mean ()" est utilisé sur une série. Les fonctions peuvent être appliquées aux catégories après avoir créé les groupes de catégories. C'est une idée simple mais une technique très efficace qui est fréquemment appliquée en science des données. Il nous permet de créer un résumé des données pour chaque groupe, d'appliquer des modifications spécifiques au groupe et d'effectuer une filtration de données. Avec la fonction groupBy (), l'objet peut être divisé, une fonction peut être appliquée et les produits peuvent ensuite être combinés. Les grands ensembles de données peuvent être regroupés avec cela, et les opérations peuvent être effectuées sur les groupes.

Comment utiliser le groupe.Méthode moyenne () en pandas?

Pour calculer la moyenne d'une dataframe ou la moyenne de colonnes spécifiques d'une dataframe, nous pouvons utiliser le groupe.Fonction moyenne (). Nous montrerons comment l'utiliser dans les exemples suivants.

Exemple # 01: Déterminez la moyenne d'une seule colonne entière en regroupant les données d'une seule colonne

Utilisation du PD.Fonction DataFrame (), nous allons d'abord créer un DataFrame afin que nous puissions diviser les données de la colonne ou des colonnes du DataFrame en groupes, puis trouver leur valeur moyenne. Avant de créer le cadre de données, nous devons importer le module Pandas avec la bibliothèque Numpy.

Comme on peut le voir, nous avons créé notre DataFrame en utilisant le dictionnaire Pandas. Nous avons 3 colonnes dans notre DF DataFrame, i.e., «articles», «fabricant» et «quantité». Dans la colonne «éléments», nous avons stocké les valeurs («chemise», «cravate», «pantalon», «chemise», «cravate», «pantalon», «chemise», «pantalon», «pantalon», « Tie '), tandis que les colonnes «fabricant» et «quantité» contenant les valeurs («Italie», «France», «Chine», «France», «Chine», «Italie», «Chine», «Italie», «France», «Chine») et (13, 16, 21, 32, 26, 41, 24, 42, 12, 15). Regrourons les valeurs dans la colonne du fabricant et déterminons la valeur de quantité moyenne pour chaque fabricant distinct.

La valeur du fabricant «Chine» a une valeur de quantité moyenne de 21.5, la valeur de quantité moyenne pour la «France» est de 20.0, et la valeur de quantité moyenne pour «l'Italie» est 32.0. Nous pouvons également spécifier un index à la sortie en utilisant la fonction reset_index avec le groupe.Fonction moyenne ().

Exemple n ° 02: Trouvez la moyenne d'une seule colonne de flotteur en regroupant les données d'une seule colonne

Nous avons vu comment nous pouvons trouver la moyenne de la colonne entière après le regroupement des données. Essayons maintenant une autre colonne de type de données comme Float. Un dataframe avec au moins une colonne avec des valeurs de flotteur sera créé à l'aide du PD.Fonction DataFrame ().

En mettant un dictionnaire à l'intérieur du PD.DataFrame (), nous avons créé un DataFrame avec trois colonnes. La colonne «Nom» est en train de stocker les noms de certains joueurs aléatoires («Sam», «Jay», «Leo», «Mike», «Will», «Billy», «Jhonny», «Lara», «Hanna», «Tony»), la colonne «Team» représentant l'équipe à partir de laquelle chaque joueur appartient à («a», «a», «b», «a», «b», «a», «c», «b ',' C ',' C '), et la colonne' Hight 'est de stocker les hauteurs de chaque joueur comme une valeur flottante (5.6, 5.4, 6.3, 5.2, 5.5, 6.4, 5.6, 5.8, 6.0, 5.2). Regrourons les données de la colonne «Team» et déterminons la valeur de hauteur moyenne pour chaque valeur «Team» distincte.

Vous pouvez voir que la valeur de hauteur moyenne de l'équipe A joueurs est de 5.65, tandis que les hauteurs moyennes des joueurs des équipes B et C sont 5.866 et 5.6, respectivement.

Exemple # 03: Déterminez la moyenne de plusieurs colonnes en utilisant le groupe.Fonction moyenne ()

Dans les exemples précédents, nous avons déterminé la moyenne d'une seule colonne. Cependant, la moyenne de nombreuses colonnes pour chaque groupe peut également être déterminée. Créons un dataframe ayant plus d'une colonne numérique, après avoir importé les modules Pandas et Numpy.

Dans le nouveau DataFrame, il y a trois colonnes avec les étiquettes «Nom», «Score» et «Matches». La colonne nomme les valeurs de données comme une chaîne («Ron», «Jim», «Dany», «Jim», «Jim», «Dany», «Ron», «Ron», «Dany», «Jim» ), tandis que le «score» et les «correspondances» consistent en des données numériques comme (3, 4, 2, 4, 1, 5, 2, 3, 1, 2) et (2, 3, 1, 2, 1, 3 , 4, 1, 2, 1). Finissons maintenant la moyenne de la colonne «score» et «correspond» après le regroupement des données de la colonne «nom». Le groupe.La fonction moyenne () sera utilisée pour cela.

On peut remarquer que le groupe «Dany» a un score moyen de 2.66 en 2.00 Matches. Le groupe Jim a un score moyen de 2.75 et la valeur moyenne des matchs joués est 1.75. Alors que le groupe «Ron» a une valeur de score moyenne de 2.66 et la valeur moyenne des matchs joués est 2.33.

La moyenne d'un groupe de catégories par l'objet peut également être calculée en utilisant la méthode AGG (). Nous fournirons la moyenne comme argument à la fonction AGG (). Pour agréger en utilisant des opérations uniques ou multiples sur l'axe donné, nous pouvons utiliser la fonction AGG ().

La sortie est la même qu'avant.

Exemple # 04: Déterminez la moyenne de colonnes spécifiques en regroupant les multiples colonnes

Dans les exemples 1, 2 et 3, nous avons regroupé les valeurs ou les données d'une seule colonne. Nous allons maintenant regrouper plusieurs colonnes en utilisant la liste des étiquettes de colonne à l'intérieur de la fonction GroupBy (), puis nous trouverons la valeur moyenne pour chaque groupe. Un dictionnaire «D» sera passé à l'intérieur du PD.DataFrame () fonctionne comme une entrée pour créer le dataframe.

Nous avons créé le dataframe requis. La chronique «Sports» stockait le nom de certains sports («badminton», «football», «tennis», «basket-ball», «football», «tennis», «basket-ball», «football», `` badminton », ' Basketball «,« basket-ball »,« tennis »), Les noms des pays (« Chine »,« Russie »,« Italie »,« Espagne »,« Russie »,« Italie »,« Chine »,« Italie »,« Espagne «,« Chine »,« Russie »,« Italie ») sont stockés dans la colonne« pays ». Alors que dans la colonne «Win», nous avons stocké le nombre de matchs remportés par chaque pays dans chaque sport (13, 10, 6, 7, 10, 12, 7, 11, 8, 13, 11, 6). Utilisons le groupe.Fonction moyenne () pour trouver la moyenne des valeurs de la colonne «Win» en regroupant les colonnes «sports» et «pays».

La fonction a réussi à déterminer les moyennes des valeurs de colonne «Win» pour chaque sport du pays. Le dataframe groupé par peut être réinitialisé à l'aide de la fonction reset_index (), qui génère également un nouvel index, ce qui lui donne une structure de dataframe appropriée.

Un index est ajouté pour chaque ligne de Dataframe. Pour organiser les résultats dans un tableau attractif, nous pouvons également utiliser la fonction PIVOT ().

Conclusion

Dans ce didacticiel, nous avons discuté de la moyenne ou de la moyenne des nombres et comment trouver la moyenne d'une colonne spécifique (un ou plusieurs) après le regroupement de la colonne ou des colonnes d'un dataframe. Nous avons mis en œuvre quelques exemples dans cet article pour vous apprendre à déterminer la moyenne d'un seul entier ou une colonne flottante en regroupant les données d'une seule colonne; Comment déterminer la moyenne de plusieurs colonnes en utilisant le groupe.fonction moyenne (); et aussi comment déterminer la moyenne de colonnes spécifiques en regroupant les multiples colonnes.