Pandas dataframe groupby

Sarah Roux

Pour regrouper les données en catégories et appliquer une fonction aux catégories, nous utilisons la méthode Pandas «GroupBy ()». L'agrégation de données efficace est également aidée par l'informatique. La fonction GroupBy () est utilisée pour diviser les données en groupes en fonction de certains critères spécifiques. Les objets de «pandas» peuvent être divisés le long de n'importe quel axe. On peut dire que dans une méthode «groupby ()», l'objet est divisé, une fonction est appliquée et leurs résultats sont combinés. De grandes données peuvent être regroupées à l'aide de la méthode «GroupBy ()», et les opérations peuvent également être calculées sur ces groupes. Ce guide expliquera en détail la méthode «GroupBy ()» et vous donnera des directives appropriées sur la méthode «GroupBy ()».

Exemple # 01:

Nous mettons également en œuvre cette fonction «groupby ()» dans le code «pandas» dans ce guide, vous en apprendrez donc plus rapidement sur la fonction «groupby ()». Nous importons d'abord le «pandas en tant que PD» dans l'outil «Spyder», puis générons ici une liste nommée «Données» et insérez des informations. Nous avons mis le nom «Team» comme en-tête de la colonne et les équipes que nous y ajoutons sont «Riders, Riders, Devils, Devils, Kings, Kings, Kings, Kings, Riders, Royals, Royals, Riders». La prochaine colonne que nous créons ici est la colonne «Year», dans laquelle nous ajoutons des données de l'année comme «2014, 2015, 2014, 2015, 2014, 2015, 2016, 2017, 2016, 2014, 2015, 2014».

Maintenant, c'est notre liste, et nous transformons cette liste de «données» en DataFrame. Donc, pour cela, nous avons utilisé le «PD.Fonction DataFrame () ”, qui convertit cette liste en la dataframe« pandas ». Le DataFrame créé ici est stocké dans la variable «DF» et nous les imprimons en plaçant le «DF» comme paramètre de «print ()». Maintenant, l'objectif principal de la rédaction de ce code est d'implémenter la méthode «groupBy ()» sur ces données. Nous utilisons la méthode «groupby ()» et l'appliquons à «l'année». Cela regroupera les données en fonction des années que nous avons insérées. Après le regroupement, il applique la méthode «count ()» à ce groupe. Il comptera les mêmes années, puis les stockera dans «DF1». Après cela, nous avons «l'impression» qui rendra cela.

Pour obtenir la sortie, cliquez simplement sur le bouton «Exécuter» sur l'application «Spyder». Les équipes contenant des données et des années sont rendues en premier, puis elle regroupe les mêmes années, les compte et affiche le numéro de compte devant chaque groupe de chaque année. Alors qu'il regroupe l'année «2014» et affiche «5», ce qui signifie que l'année «2014» apparaît cinq fois dans ce DataFrame. Ce regroupement est effectué parce que nous utilisons la méthode «groupby ()» sur ce dataframe.

Exemple # 02:

Après avoir importé les «Pandas en tant que PD», nous générons directement le DataFrame avec le nom «Animaux» et il contient deux colonnes: «Animal» et «Speed Max». La colonne «Animal» a «Sparrow, Falcon, Parrot, Parrot, Sparrow et Falcon». La colonne «Max Speed» contient «210, 30, 37, 24, 260 et 390». Il crée un dataframe contenant ces colonnes car nous avons utilisé le «PD. Méthode DataFrame () ”ici.

Ensuite, nous affichons ce dataframe «animal». Après cela, nous appliquons la méthode «groupby ()» à la dataframe «animaux» et insérons la colonne «animal» comme paramètre. Cela rendra les groupes dépendants des mêmes noms d'animaux. Ensuite, nous utilisons également la fonction «moyenne ()» ici, qui trouvera la moyenne de ces groupes qui sont créés ici, et nous initialisons la variable «groupe» avec cette méthode «groupby ()», donc le résultat que nous obtenons après le regroupement sera stocké dedans. Nous voulons également montrer le résultat qui est stocké en «groupe», donc pour cela, nous utilisons à nouveau la fonction «print ()».

Les animaux et leurs vitesses maximales sont affichées dans le premier DataFrame sans regrouper. Après cela, la fonction «groupby ()» est appliquée ici et elle regroupe tous les animaux du même nom et trouve ensuite leur moyenne et les affiche ci-dessous.

Exemple # 03:

Nous créons une nouvelle liste dans ce code, qui est la liste «Summer_Courses», et y ajoutant quatre colonnes uniques. Les noms d'en-tête des colonnes sont "Sujet, Sub_fee, Days et Dis_amount". Nous ajoutons également les noms de sujet, les frais de sujet, la durée du cours en jours et le montant de réduction sur les frais de ces colonnes. Dans le «sujet», nous ajoutons ici «le développement Web, le wengineering, le CSS, le HTML, le CSS, le développement Web, le CSS, le HTML et également NA». Le «Sub_Fee» contient les frais qui sont «22000, 25000, 23000, 24000, 25000, 26000, 25000, 25000, 22000 et 15000». Les jours où nous entrons ici sont «30, 50, 55, 40, 60, 35, 30, 50 et 40», et aussi la colonne «dis_amount» contient «1000, 2300, 1000, 1200, 2500, aucun, 1400, 1600 et 0 ”.

Maintenant, nous devons transformer cette liste en dataframe. Donc, pour convertir la liste en dataframe, nous utilisons le «PD.DataFrame () "Fonction et nommez le dataframe" Summer_Cème_DF ". Nous rendons également «Summer_Cème_DF» ici. La variable «Summer_Cème1» est initialisée en utilisant la technique «GroupBy ()» afin que les résultats du regroupement soient enregistrés dedans. La méthode «groupby ()» est ensuite appliquée à la colonne «Sujet».

En conséquence, des groupes basés sur des noms de sujets similaires seront créés. La fonction «sum ()» est ensuite utilisée pour calculer la somme des groupes de sujets qui venaient d'être formés. Cette «somme ()» calcule la somme des frais, des jours et des montants de remise pour les mêmes sujets. Nous voulons également afficher le résultat qui a été enregistré dans «Summer_course1», nous utilisons donc de nouveau la fonction «print ()».

Ici, vous pouvez remarquer qu'il rend tous les sujets séparément dans le premier DataFrame. Ensuite, il combine les mêmes sujets ou fait des groupes des mêmes noms de sujet et affiche également le même nom de nom une fois. Il applique la fonction de somme aux colonnes sub_fee, jours et dis_amount des mêmes noms de sujet et rend leurs sommes ici.

Exemple # 04:

Dans ce code, nous utilisons le dataframe de l'exemple précédent, mais nous effectuons ici la fonction «groupBy ()» sur plusieurs colonnes. Nous passons deux noms de colonnes à la fonction «groupby ()», qui sont «sujet» et «jours». Ensuite, placez le "sum ()" qui effectuera la sommation sur les groupes qui sont créés ici et les sauvegardent dans la variable "Summer_Courses2". Après cela, nous rendons le «Summer_Courses2» à la fin.

Ce résultat montre qu'il remplit la fonction «groupby ()» dans les colonnes «sujet» et «jours» et rend le résultat ici après le regroupement.

Conclusion:

Vous pouvez utiliser ce guide pour étudier comment utiliser la fonction «groupby ()» dans «pandas» et également découvrir la syntaxe de cette méthode «groupby ()» ici. Notre objectif majeur est de vous donner une explication concise et compréhensible de l'idée de la méthode «groupby ()» dans «pandas». Nous avons expliqué que cette méthode nous aide à faire des groupes en fonction de certains critères spécifiques. Nous avons fait quatre exemples dans ce guide dans lequel nous fabriquons des groupes en utilisant la méthode «GroupBy ()» dans «Pandas». Après avoir lu ce tutoriel, vous aurez un degré de connaissance modeste, à partir de laquelle vous pouvez passer à une étape supérieure.

Windows OS

Qu'est-ce que Windows Package Manager

Window Package Manager ou Winget est un outil puissant pour installer et gérer les packages logiciel...

Mohamed Benoit

Docker

Quel est le but d'un docker-compose.Fichier YML dans Docker?

Le but principal d'un «compose docker.Le fichier yml »doit simplifier le processus de déploiement et...

Lola Bonnet

Base de données Oracle

Oracle Fusion est-il considéré comme mieux que SAP?

Oracle Fusion (ERP basé sur le cloud) a une interface conviviale, tandis que SAP (Cloud et ERP sur s...

Sarah Roux