Variance des pandas

Variance des pandas
«Le« Pandas »est une bibliothèque de logiciels écrits dans le langage Python pour effectuer l'analyse et la manipulation des données. Et si nous voulons connaître le degré de diffusion dans votre dataframe? La variance est utilisée pour effectuer cette tâche. Il est utilisé pour représenter une mesure entre les nombres dans les données de l'écart. Les pandas ont présenté la fonction de variance, qui indiquera le degré de l'ensemble des données. La fonction de la variance du panda est "var ()". Plus il y a de données réparties, plus la variance est par rapport à la moyenne. Plus tard, nous allons effectuer tout comment la variance des pandas peut être utilisée. Pour l'implémentation du code dans l'exemple, nous utiliserons le logiciel «Spyder», un logiciel Python Language-Friendly."

Syntaxe

# «DF.var () "

La syntaxe ci-dessus est utilisée pour calculer la variance dans le dataframe. Le «DF» dans la syntaxe représente le «DataFrame».

Nous exécuterons la méthode suivante pour l'exemple d'explication de la fonction de la variance des pandas:

  • Calcul de variance Pandas pour une seule colonne dans le DataFrame.
  • Calcul de variance Pandas d'une seule colonne dans le DataFrame en modifiant l'argument.
  • Calcul de variance Pandas pour plusieurs colonnes dans le dataframe.
  • Variance pandas pour le calcul de l'ensemble des colonnes DataFrame.

Création de DataFrame pour l'exemple de l'implémentation de la variance des pandas

Ouvrez l'outil «Spyder» sur votre bureau / ordinateur portable. Maintenant, d'abord, importez la bibliothèque Pandas comme «PD» que nous fonctionnons dans l'environnement du panda. Créons un dataframe; Le «DF» se compose des noms «Tom», «Eddie», «Sam», «Leo» et «Nick» avec leur âge comme «25», «44», «66», «55» et «78 ". Nous avons les données manquantes des âges comme «20», «30», «40», «50» et la «valeur manquante», nous avons également leurs revenus dans le dataframe comme «78000», «70000», «66000» , «33000» et «68000». Et puis, nous allons imprimer la condition «DF» qui sera utilisée pour construire le DataFarame.

Le DataFrame est créé comme nous voyons l'affichage affichant les colonnes et la valeur que nous avons attribuée dans le code. Nous pouvons voir qu'il y a un «nan» écrit dans la colonne de données manquante dans le dernier, ce qui signifie qu'il s'agit de «pas un nombre» et il n'y a pas de valeur attribuée là-bas.

Exemple # 01: calcul de variance Pandas pour une seule colonne dans le dataframe

Dans ce cas, nous déterminerons la variance d'une seule colonne à partir du dataframe. Le «DF» se compose des quatre colonnes «nom», «âge», «données manquantes» et «revenu». Les noms sont «Will», «Tina», «Lily», «Sea» et «Sanany», leurs âges sont «33», «45», «35», «85» et «78». Les âges des données manquantes ont les valeurs comme «30», «40», «60», «80» et le terme manquant comme «aucun», leurs revenus sont «99000», «88000», «77000», «55000» et «68000». Étant donné que nous calculerons une seule variance de colonne, nous devons spécifier un nom de colonne avec la variance, par exemple, «revenu_varience»; Ici, la colonne «Revenu» est sélectionnée pour le calcul de la variance. La fonction var () avec le «df» et la colonne de revenu spécifiée.

La sortie affiche la variance calculée du «revenu» de la colonne en utilisant la fonction pandas var ().

Exemple # 02: Calcul de variance Pandas d'une colonne unique dans le dataframe à l'aide de DDOF

Ici, nous utiliserons l'argument DDOF pour le calcul de la variance dans une seule colonne. Dans le DataFrame, le DataFrame se compose des noms «Shein», «Rose», «Allen», «Wilson» et «Dom» les âges comme «44», «23», «55», «36» et «41». Le revenu comme «39000», «8400», «57000», «54000» et «55000» et ayant la colonne de données d'âge manquante comme «20», «22», «23», «25» et «Aucun ". La question commence par l'utilisation de l'argument changeant en «0». La réponse est que la valeur par défaut des pandas est configurée comme N-1 comme «dénominateur», et si nous voulons utiliser le «N» comme dénominateur, nous devons donc utiliser l'argument «DDOF» et modifier sa valeur en « 0 ”au lieu de" 1 ".

Le «de» est l'abréviation du «degré de liberté delta» Il fonctionne comme diviseur utilisé dans le calcul comme «N», où il représente le nombre d'éléments. Ici aussi, la colonne peut être choisie par votre choix comme par le travail nécessaire, nous pouvons calculer la variance de l'une des colonnes consistant en des valeurs numériques. La colonne «Revenu» est également sélectionnée ici pour calculer la variance.

L'affichage affiche la variance calculée du revenu de la colonne comme «212560000» en utilisant l'argument DDOF réglé sur «0»:

Exemple # 03: variance des pandas pour le calcul des multiples colonnes dans le dataframe

Dans le premier exemple, nous avons fait l'exemple de la façon de calculer la variance des pandas de la colonne unique dans le dataframe. Maintenant, nous allons calculer la variance dans plusieurs colonnes en utilisant la fonction pandas var (). Le DataFrame se compose de noms comme «Nina», «Ruby», «Ali», «Peter» et «Lisa», avec les âges «55», «85», «45», «31» et «51». Les données de valeur manquantes des âges ont les valeurs comme «21», «32», «20», «36» et le terme manquant. Nous avons le revenu de ces personnes comme «70000», «47000», «62000», «45000» et «56000».

Nous avons choisi les colonnes «âges» et le «revenu» de la colonne pour le calcul de la variance dans les pandas. Nous pouvons décider des colonnes et les entrer pour calculer la variance en fonction des performances d'analyse plus approfondies.

La production se compose de la variance calculée des «âges» et de la colonne «revenus» telle que choisie, respectivement. Nous pouvons voir que la variance des différentes colonnes est affichée séparément avec leurs noms de colonnes.

Exemple # 04: variance des pandas pour le calcul de l'ensemble des colonnes DataFrame

Dans cet exemple, nous implémenterons la fonction Pandas var () pour le calcul de la variance dans l'ensemble des données. Les données ici contient les noms «Fiona», «Zayn», «Steeve», «Henry» et «Olive», leurs âges sont «18», «25», «35», «36» et «56». La colonne d'âge manquant a les valeurs «14», «12», «30», «16» et «Aucun». Leur revenu est «80000», «38000», «33000», «95000» et «78000».

La syntaxe de base est utilisée pour chaque colonne du calcul de la variance DataFrame; La dataframe a sélectionné la colonne entière avec la fonction «var ()». L'instruction de variance d'impression imprimera toutes les variances calculées.

La sortie affiche les calculs de variance des colonnes du dataframe, qui étaient en valeurs numériques. Comme les «âges», les «âges manquants» et la colonne «revenus». La colonne de nom a les caractères, donc leur variance ne peut pas être calculée.

Conclusion

La variance des pandas est une fonction très utile mais très technique. Il aide à calculer la variance très facilement en utilisant la fonction var () de pandas. Dans cet article, nous avons appris toutes les méthodes avec l'exemple d'exécution de chacun pour une meilleure compréhension. Nous avons effectué le calcul de la variance à une seule colonne dans les pandas, les calculs de variance multiple des colonnes dans les pandas, celui qui a modifié l'argument du paramètre par défaut, ainsi que l'application de calcul de variance sur le DataFrame complet. Chacun d'eux est très utile en soi, selon l'utilisation et la condition par le besoin de temps.