Comment utiliser la fonction moyenne des pandas?
Nous devons d'abord comprendre la syntaxe avant de voir comment utiliser la méthode moyenne () pour calculer la moyenne. Selon le type d'objet que vous utilisez, la méthode moyenne Pandas déterminera sa syntaxe. Mean () peut être appliqué aux colonnes de données, série et individuelles du DataFrame.
Syntaxe pour utiliser la fonction moyenne () pour les dataframes
Voici la syntaxe pour utiliser la fonction moyenne () sur un dataframe.
Syntaxe: df.moyenne( )
Vous devez taper votre nom de dataframe suivi de.moyenne () pour invoquer la méthode lors de l'utilisation de moyenne () sur un dataframe entier. La moyenne (), par défaut, essaie de fonctionner sur chaque colonne lorsqu'elle est appliquée à un dataframe entier. Cependant, en réalité, la sortie se compose généralement des moyens de variables numériques. Vous pouvez également utiliser quelques paramètres facultatifs supplémentaires pour modifier légèrement le résultat que nous obtenons en utilisant la fonction moyenne ().
Syntaxe pour utiliser la fonction moyenne () pour la série Pandas
Lors de l'application de la technique moyenne () à une série, la syntaxe est assez similaire à celle d'un dataframe.
Syntaxe: série.moyenne( )
Il existe des arguments que vous pouvez utiliser pour modifier les résultats lorsque vous utilisez Mean () sur une série, tout comme avec DataFrames.
Syntaxe pour utiliser la fonction moyenne () pour les colonnes individuelles dans le dataframe
Étant donné que les colonnes DataFrame sont des objets de la série Pandas, l'application de la moyenne de pandas sur une colonne nécessite deux étapes: en utilisant la syntaxe de points pour récupérer la colonne spécifiée, puis appeler la fonction moyenne ().
Syntaxe: df.colonne.moyenne( )
Par exemple, vous utiliseriez le code «DF.colonne.Mean () "Si votre DataFrame est nommé DF et que la colonne sur laquelle vous souhaitez fonctionner est appelée" colonne ". Il calculera alors la moyenne pour une seule colonne.
Paramètres
axe: Ceci est une référence à l'axe de la fonction qui sera utilisée.
Skipna: Il n'inclut aucune valeur nulle dans le calcul du résultat.
niveau: Si l'axe est un multiindex, il compte avec ce niveau et s'effondre en une série.
Numeric_only:
Seules les colonnes int, flottantes et booléennes sont présentes. Si aucun, il essaiera d'utiliser tout avant d'utiliser des informations simplement numériques. Non utilisé pour la série.
Retour: Si le niveau est spécifié, il donne la moyenne du DataFrame ou de la série.
Maintenant, nous avons compris la syntaxe, alors procédons plus loin pour la mettre en œuvre dans les exemples ci-dessous.
Exemple n ° 1: Trouvez la valeur moyenne de la colonne Dataframe
Tout d'abord, les modules Pandas et Numpy seront importés, alors nous créerons notre DataFrame. Créons un exemple de données de données ayant les données des employés d'une entreprise.
Nous avons produit une dataframe en utilisant le PD.Fonction DataFrame () et stocké l'enregistrement de 10 employés dans le DF DataFrame en passant par des paramètres à l'intérieur du PD.DataFrame () i.e. EMP, colonnes et index. La fonction print () est utilisée pour visualiser notre dataframe.
Calculons la moyenne d'une seule colonne dans un dataframe. Ici, nous trouverons la moyenne / moyenne de la variable d'âge.
La variable d'âge, dans ce cas, est récupérée à l'aide de «syntaxe de points."Nous utilisons le code DF.âge pour accomplir ça. Mais juste après cela, nous calculons la moyenne en utilisant .moyenne(). Cela extrait essentiellement la colonne d'âge du DF DataFrame et calcule la moyenne de cette colonne.
Exemple n ° 2: Trouvez la moyenne de l'ensemble des données
Appliquons ensuite la méthode moyenne () à un DF DataFrame entier, que nous avons créé dans l'exemple n ° 1 comme suit:
Le script ci-dessus calculera la moyenne de toutes les colonnes numériques dans notre DF DataFrame.
La méthode moyenne () a calculé la moyenne de chaque variable numérique lorsque la moyenne () a été appelée sur l'ensemble des données. Par conséquent, il a calculé l'âge, le salaire et le bonus moyens du DF DataFrame. Ainsi, en utilisant la méthode moyenne () sur l'ensemble des données, l'âge moyen est de 27.000000, le salaire moyen est de 17650.000000, et le bonus moyen est 2055.555556.
Exemple n ° 3: Trouvez la moyenne du dataframe, y compris les valeurs manquantes
Avez-vous remarqué qu'il y a les mêmes valeurs manquantes dans notre DF DataFrame? L'option Skipna de la moyenne () est toujours configurée comme skipna = true par défaut. Pandas Mean () ignore les valeurs manquantes si l'option Skipna est définie sur true. En spécifiant Skipna = false, nous pouvons désactiver cela.
La moyenne des colonnes ayant des valeurs manquantes sera nan.
Les moyens de colonne d'âge et de bonus sont tous deux nan. Cela est dû aux valeurs manquantes dans les variables d'âge et de bonus qui ont maintenant été incluses dans la sortie. Vous pouvez choisir de sauter ces valeurs lorsqu'une variable les a en définissant Skipna = True. Alternativement, vous souhaitez utiliser la méthode Pandas Fillna pour remplir les valeurs manquantes.
Exemple n ° 4: Trouvez la moyenne groupée par une variable catégorique
Ici, le salaire moyen est calculé par bonus. Cela impliquait certaines étapes:
Comme vous pouvez le voir, en utilisant .Groupby ([bonus]) a converti les valeurs de bonus en tant que groupe où la valeur des données se produisait plus d'une fois (2000 se produisait 3 fois). Le code df.Groupby (['bonus']).Salaire.moyenne () a calculé la moyenne des valeurs de salaire par rapport aux valeurs groupées de la variable bonus.
Exemple n ° 5: Calculez la moyenne conditionnelle pour la variable catégorique
Le même DF DataFrame sera également utilisé dans cet exemple. Le code suivant montre comment déterminer la moyenne de la colonne «Salaire» pour les lignes du dataframe lorsque la colonne «bonus» a une valeur supérieure à 1800.
Un ensemble de lignes et de colonnes est accessible en utilisant le DF. propriété loc [] par étiquettes. Dans le code ci-dessus, vous pouvez voir que le salaire moyen des lignes avec des bonus supérieurs à 1800 est indiqué dans la colonne de salaire. Cela signifie que le salaire moyen de ces personnes / employés dont le bonus est supérieur à 1800 est 16500.0.
Conclusion
Pour déterminer la valeur moyenne d'une série ou d'un cadre de données Pandas, nous utilisons la méthode moyenne (). Vous devriez maintenant avoir une meilleure compréhension du fonctionnement de la méthode des Pandas Moyenne après avoir parcouru cet article. Pour déterminer la valeur moyenne d'un Pandas DataFrame ou d'une série, la méthode moyenne () est utilisée. Avec les exemples, nous avons essayé de vous apprendre à trouver la moyenne d'une colonne dans une dataframe, à trouver la moyenne groupée par une variable catégorique et comment trouver la moyenne conditionnelle en utilisant la fonction moyenne ().