Pourcentage cumulé Pandas

Pourcentage cumulé Pandas
La formule mathématique standard pour calculer le pourcentage cumulatif est de calculer la somme cumulative pour chaque valeur dans la colonne et de diviser la somme cumulative de chaque cellule dans une colonne par la somme mathématique de toutes les valeurs de la colonne, puis de la multiplier avec 100. La question est maintenant de savoir comment accomplir cela dans Python en utilisant des pandas.

Cet article est conçu pour vous faire apprendre à trouver des pourcentages cumulatifs dans Python à l'aide de pandas. Commençons par la formule de base ou la syntaxe du pourcentage cumulé, puis poursuivons plus loin.

Quelle est la syntaxe du pourcentage cumulatif?

Vous trouverez ci-dessous la syntaxe du pourcentage cumulé que vous pouvez suivre.

Pourcentage cumulé Pandas

Les cadres de données Pandas dans Python fournissent deux fonctions prédéfinies, sum () et cumsum (), pour calculer le pourcentage cumulatif avec Python. La fonction sum () est utilisée pour calculer la somme de toutes les valeurs de la colonne, et la fonction cumsum () est utilisée pour calculer la somme cumulative de chaque valeur dans la colonne.

Comment la fonction cumsum () fonctionne-t-elle pour calculer la somme cumulative à Python?

Le cumsum () est un cadre de données panda intégré à Python utilisé pour calculer la somme cumulative des éléments du tableau. Il prend un tableau comme entrée et calcule une séquence de sommes partielles ou, en d'autres termes, un total en cours d'exécution. L'objectif principal du calcul d'une somme cumulative est de mettre à jour la somme d'un ensemble de données chaque fois qu'une nouvelle valeur est ajoutée à l'ensemble de données.

Il y a cinq étapes que vous devez suivre pour calculer la somme cumulative avec des pandas en python, et les voici:

  1. Créez un cadre de données ou fournissez un tableau de données que vous souhaitez calculer le pourcentage cumulatif.
  2. Calculez la somme cumulative avec la fonction CUMSUM () intégrée.
  3. Calculez la somme du tableau avec la fonction SUM () intégrée.
  4. Divisez la valeur CUMSUM () calculée par la valeur Sum () calculée.
  5. Multipliez chaque valeur calculée par 100, et la valeur résultante sera le pourcentage cumulé d'une valeur particulière dans le tableau.

Voyons maintenant quelques exemples pour comprendre comment cumsum () et sum () fonctionnent pour calculer le pourcentage cumulatif de la colonne avec un cadre de données Pandas dans Python.

Exemple 1:
Dans le premier exemple, nous commencerons à calculer la somme cumulative d'une seule colonne afin que vous puissiez comprendre facilement la fonction. Tout d'abord, créez une trame de données comme «data_frame» et fournissez les valeurs dont vous avez besoin pour calculer la somme cumulative, puis transmettre le paramètre «data_frame» à PD.DataFrame () tout en spécifiant les valeurs de colonne, et enfin, utilisez les fonctions intégrées cumsum () et sum () pour calculer le pourcentage cumulatif.

Importer des pandas en tant que PD
Importer Numpy comme NP
data_frame =
«Noms»: [«AB», «BC», «CD», «De», «EF», «FG», «GH»],
'Mathscore': [152,187,149,174,128,159,148]
data_frame = pd.DataFrame (data_frame, colonnes = ['noms', 'mathscore'])
data_frame ['cum_per'] = 100 * (data_frame.Mathscore.cumsum () / data_frame.Mathscore.somme())
trame de données

Voici la sortie du code ci-dessus:

Exemple 2:
Dans cet exemple, nous vous montrerons la somme cumulative à chaque étape. Le code est exactement le même que l'exemple ci-dessus, avec quelques modifications mineures pour imprimer la somme cumulative à chaque étape. Voir l'exemple de code ci-dessous:

Importer des pandas en tant que PD
Importer Numpy comme NP
data_frame =
«Noms»: [«AB», «BC», «CD», «De», «EF», «FG», «GH»],
'Mathscore': [152,187,149,174,128,159,148]
data_frame = pd.DataFrame (data_frame, colonnes = ['noms', 'mathscore'])
data_frame ['Cumulative Sum'] = data_frame.Mathscore.cumsum ()
_sum = data_frame.Mathscore.somme()
data_frame ['cumulative%'] = 100 * (cum_sum / _sum)
trame de données

Voici la sortie. Notez que la somme cumulative est indiquée dans la colonne «somme cumulative» de chaque valeur. Et le total de toutes les valeurs est de 1097. Voir la dernière ligne de la sortie.

Exemple 3:
Nous avons vu comment calculer le pourcentage cumulé d'une colonne à la fois. Voyons maintenant comment calculer la somme de deux colonnes simultanément. La procédure suit les mêmes étapes que les exemples ci-dessus.

Tout d'abord, vous devez créer un cadre de données, puis fournir les colonnes dans lesquelles vous devez calculer la somme cumulative. Ensuite, trouvez la somme et la somme cumulative avec sum () et cumsum () la fonction intégrée, respectivement, et multiplier les valeurs par 100. Imprimez maintenant les valeurs dans le cadre de données pour voir la sortie. Le code est donné ci-dessous:

Importer des pandas en tant que PD
Importer Numpy comme NP
data_frame =
«Noms»: [«AB», «BC», «CD», «De», «EF», «FG», «GH»],
«Mathscore»: [152,187,149,174,128,159,148],
«Englishscore»: [134,167,125,189,192,145,186]
data_frame = pd.DataFrame (data_frame, colonnes = ['noms', 'MathScore', 'EnglishScore'])
data_frame ['cum math sum'] = data_frame.Mathscore.cumsum ()
data_frame ['cum eng sum'] = data_frame.Englishscore.cumsum ()
Msum = data_frame.Mathscore.somme()
Esum = data_frame.Englishscore.somme()
data_frame ['mcumulative%'] = 100 * (cum_sum / msum)
data_frame ['œcumulative%'] = 100 * (data_frame ['cum eng sum'] / esum)
trame de données

La sortie du code ci-dessus est la suivante:

Exemple 4:
Dans cet exemple, nous expliquerons comment gérer les valeurs «nan» dans un tableau? Et comment Cumsum () traite des valeurs «nan» dans le cadre de données. Les étapes initiales sont les mêmes que celles données dans les exemples; Cependant, les étapes supplémentaires sont données ci-dessous dans le code:

Importer des pandas en tant que PD
Importer Numpy comme NP
data_frame = pd.Trame de données(
«Noms»: [«AB», «BC», «CD», «De», «EF», «FG», «GH»],
'Mathscore': [152,187,149,174,128,159,148],
index = ['1', '2', '3', '4', '5', '6', '7'])
print (data_frame)

La sortie affichera maintenant une colonne d'index:

Si vous le remarquez, une colonne supplémentaire «Index» a été ajoutée à la trame de données. L'étape suivante consiste à trouver la somme cumulative que nous avons calculée dans les exemples ci-dessus.

data_frame ['Cumulative Sum'] = data_frame.Mathscore.cumsum ()
print (data_frame)

Voici la somme cumulative avant de fournir une valeur «nan»:

Après cela, laissons tomber une valeur dans le tableau et le remplacer par la valeur «nan». Regardez le code ci-dessous pour découvrir comment remplacer une valeur par «nan».

data_frame = data_frame.Drop ('Cumulative Sum', axe = 1)
trame de données.loc ['3', 'mathscore'] = np.Nan
print (data_frame)

Comme vous pouvez le voir dans la sortie ci-dessous que la valeur de l'index 3 est remplacée par «nan»:

Calculons à nouveau la somme cumulative pour voir comment cumsum () réagit à la valeur «nan» dans le tableau.

data_frame ['Cumulative Sum'] = data_frame.Mathscore.cumsum ()
print (data_frame)

Voici la sortie de la nouvelle somme cumulative.

Si vous remarquez que cumsum () a ignoré le «nan» et a calculé la somme cumulative de toutes les autres valeurs. De plus, la valeur totale est également différente car la seule valeur du tableau est «nan» et elle ne contribue pas à la valeur totale.

Conclusion:

Cet article est conçu pour apprendre à trouver le pourcentage cumulatif avec Pandas Data Frame in Python. Tout d'abord, nous avons discuté de la formule mathématique de base du pourcentage cumulé, puis nous avons vu les deux fonctions Python intégrées, cumsum () et sum (), pour trouver le pourcentage cumulatif avec des pandas en python. La somme cumulative est le total de fonctionnement d'une séquence de sommes partielles. À l'aide d'exemples, nous avons montré comment utiliser la fonction Python intégrée cumsum () et sum () pour calculer la somme cumulative d'une colonne.