Pandas Moyenne

Ines Dubois

«Dans ce tutoriel, nous montrerons comment appliquer la technique moyenne des pandas pour calculer la moyenne. La moyenne des valeurs numériques dans une série Pandas ou Pandas DataFrame est déterminée à l'aide de la fonction moyenne (). L'un des outils qui simplifient considérablement le processus d'importation et d'évaluation des pandas de données est l'un d'entre eux. La valeur moyenne de l'axe choisi est renvoyée par les données de Pandas.Fonction moyenne (). Si la méthode est utilisée sur un objet de la série Pandas, il produit un nombre scalaire qui représente la moyenne de toutes les données ou occurrences dans le dataframe. Il est courant d'utiliser cet outil sur une seule colonne DataFrame, mais la fonction moyenne () dans les pandas peut fonctionner sur l'ensemble des données de données Pandas, des objets de la série et des colonnes de dataframe individuelles."

Comment utiliser la fonction moyenne des pandas?

Nous devons d'abord comprendre la syntaxe avant de voir comment utiliser la méthode moyenne () pour calculer la moyenne. Selon le type d'objet que vous utilisez, la méthode moyenne Pandas déterminera sa syntaxe. Mean () peut être appliqué aux colonnes de données, série et individuelles du DataFrame.

Syntaxe pour utiliser la fonction moyenne () pour les dataframes

Voici la syntaxe pour utiliser la fonction moyenne () sur un dataframe.

Syntaxe: df.moyenne( )

Vous devez taper votre nom de dataframe suivi de.moyenne () pour invoquer la méthode lors de l'utilisation de moyenne () sur un dataframe entier. La moyenne (), par défaut, essaie de fonctionner sur chaque colonne lorsqu'elle est appliquée à un dataframe entier. Cependant, en réalité, la sortie se compose généralement des moyens de variables numériques. Vous pouvez également utiliser quelques paramètres facultatifs supplémentaires pour modifier légèrement le résultat que nous obtenons en utilisant la fonction moyenne ().

Syntaxe pour utiliser la fonction moyenne () pour la série Pandas

Lors de l'application de la technique moyenne () à une série, la syntaxe est assez similaire à celle d'un dataframe.

Syntaxe: série.moyenne( )

Il existe des arguments que vous pouvez utiliser pour modifier les résultats lorsque vous utilisez Mean () sur une série, tout comme avec DataFrames.

Syntaxe pour utiliser la fonction moyenne () pour les colonnes individuelles dans le dataframe

Étant donné que les colonnes DataFrame sont des objets de la série Pandas, l'application de la moyenne de pandas sur une colonne nécessite deux étapes: en utilisant la syntaxe de points pour récupérer la colonne spécifiée, puis appeler la fonction moyenne ().

Syntaxe: df.colonne.moyenne( )

Par exemple, vous utiliseriez le code «DF.colonne.Mean () "Si votre DataFrame est nommé DF et que la colonne sur laquelle vous souhaitez fonctionner est appelée" colonne ". Il calculera alors la moyenne pour une seule colonne.

Paramètres

axe: Ceci est une référence à l'axe de la fonction qui sera utilisée.

Skipna: Il n'inclut aucune valeur nulle dans le calcul du résultat.

niveau: Si l'axe est un multiindex, il compte avec ce niveau et s'effondre en une série.

Numeric_only:

Seules les colonnes int, flottantes et booléennes sont présentes. Si aucun, il essaiera d'utiliser tout avant d'utiliser des informations simplement numériques. Non utilisé pour la série.

Retour: Si le niveau est spécifié, il donne la moyenne du DataFrame ou de la série.

Maintenant, nous avons compris la syntaxe, alors procédons plus loin pour la mettre en œuvre dans les exemples ci-dessous.

Exemple n ° 1: Trouvez la valeur moyenne de la colonne Dataframe

Tout d'abord, les modules Pandas et Numpy seront importés, alors nous créerons notre DataFrame. Créons un exemple de données de données ayant les données des employés d'une entreprise.

Nous avons produit une dataframe en utilisant le PD.Fonction DataFrame () et stocké l'enregistrement de 10 employés dans le DF DataFrame en passant par des paramètres à l'intérieur du PD.DataFrame () i.e. EMP, colonnes et index. La fonction print () est utilisée pour visualiser notre dataframe.

Calculons la moyenne d'une seule colonne dans un dataframe. Ici, nous trouverons la moyenne / moyenne de la variable d'âge.

La variable d'âge, dans ce cas, est récupérée à l'aide de «syntaxe de points."Nous utilisons le code DF.âge pour accomplir ça. Mais juste après cela, nous calculons la moyenne en utilisant .moyenne(). Cela extrait essentiellement la colonne d'âge du DF DataFrame et calcule la moyenne de cette colonne.

Exemple n ° 2: Trouvez la moyenne de l'ensemble des données

Appliquons ensuite la méthode moyenne () à un DF DataFrame entier, que nous avons créé dans l'exemple n ° 1 comme suit:

Le script ci-dessus calculera la moyenne de toutes les colonnes numériques dans notre DF DataFrame.

La méthode moyenne () a calculé la moyenne de chaque variable numérique lorsque la moyenne () a été appelée sur l'ensemble des données. Par conséquent, il a calculé l'âge, le salaire et le bonus moyens du DF DataFrame. Ainsi, en utilisant la méthode moyenne () sur l'ensemble des données, l'âge moyen est de 27.000000, le salaire moyen est de 17650.000000, et le bonus moyen est 2055.555556.

Exemple n ° 3: Trouvez la moyenne du dataframe, y compris les valeurs manquantes

Avez-vous remarqué qu'il y a les mêmes valeurs manquantes dans notre DF DataFrame? L'option Skipna de la moyenne () est toujours configurée comme skipna = true par défaut. Pandas Mean () ignore les valeurs manquantes si l'option Skipna est définie sur true. En spécifiant Skipna = false, nous pouvons désactiver cela.

La moyenne des colonnes ayant des valeurs manquantes sera nan.

Les moyens de colonne d'âge et de bonus sont tous deux nan. Cela est dû aux valeurs manquantes dans les variables d'âge et de bonus qui ont maintenant été incluses dans la sortie. Vous pouvez choisir de sauter ces valeurs lorsqu'une variable les a en définissant Skipna = True. Alternativement, vous souhaitez utiliser la méthode Pandas Fillna pour remplir les valeurs manquantes.

Exemple n ° 4: Trouvez la moyenne groupée par une variable catégorique

Ici, le salaire moyen est calculé par bonus. Cela impliquait certaines étapes:

1. regrouper les données par bonus en utilisant groupby ()
2. Récupérer la variable salariale
3. Appelez la fonction moyenne ()

Comme vous pouvez le voir, en utilisant .Groupby ([bonus]) a converti les valeurs de bonus en tant que groupe où la valeur des données se produisait plus d'une fois (2000 se produisait 3 fois). Le code df.Groupby (['bonus']).Salaire.moyenne () a calculé la moyenne des valeurs de salaire par rapport aux valeurs groupées de la variable bonus.

Exemple n ° 5: Calculez la moyenne conditionnelle pour la variable catégorique

Le même DF DataFrame sera également utilisé dans cet exemple. Le code suivant montre comment déterminer la moyenne de la colonne «Salaire» pour les lignes du dataframe lorsque la colonne «bonus» a une valeur supérieure à 1800.

Un ensemble de lignes et de colonnes est accessible en utilisant le DF. propriété loc [] par étiquettes. Dans le code ci-dessus, vous pouvez voir que le salaire moyen des lignes avec des bonus supérieurs à 1800 est indiqué dans la colonne de salaire. Cela signifie que le salaire moyen de ces personnes / employés dont le bonus est supérieur à 1800 est 16500.0.

Conclusion

Pour déterminer la valeur moyenne d'une série ou d'un cadre de données Pandas, nous utilisons la méthode moyenne (). Vous devriez maintenant avoir une meilleure compréhension du fonctionnement de la méthode des Pandas Moyenne après avoir parcouru cet article. Pour déterminer la valeur moyenne d'un Pandas DataFrame ou d'une série, la méthode moyenne () est utilisée. Avec les exemples, nous avons essayé de vous apprendre à trouver la moyenne d'une colonne dans une dataframe, à trouver la moyenne groupée par une variable catégorique et comment trouver la moyenne conditionnelle en utilisant la fonction moyenne ().

Docker

Quelle est la différence entre Docker et Podman?

Docker utilise une architecture client-serveur tandis que Podman est un moteur de conteneur de démon...

Jules Colin

c Sharp

Qu'est-ce que le système.Espace de noms IO en C #

Système.IO est un espace de noms dans le C # qui fournit un ensemble de classes, de structures, d'én...

Julien Dumas

Comment créer un cadre de données vide R

Tutoriel sur les différentes approches pour créer une dataframe vide à l'aide des données.Fonction (...

Lena Dupuy