Covariance de pandas

Covariance de pandas
La méthode Pandas Cov () calcule la covariance appariée parmi une série de DataFrame. Le DataFrame renvoyé est la matrice de covariance des colonnes de DataFrame. Le calcul exclut automatiquement les entrées NA et NULL. Cette technique est couramment utilisée pour évaluer les données de séries chronologiques afin de déterminer l'association entre différentes mesures dans le temps.

La syntaxe de cette méthode est la suivante:

Ici, les «périodes min» déterminent le nombre le moins d'occurrences nécessaires pour chaque paire de colonnes pour fournir un résultat valide.

Vous apprendrez et comprendrez cette méthode à travers la démonstration pratique des codes dans cet article.

Exemple 1

Cette illustration consiste à trouver la covariance parmi les colonnes d'un dataframe. Commençons à apprendre sa mise en œuvre pratique.

La première tâche la plus nécessaire consiste à trouver un outil compatible avec votre machine et prend en charge la langue Python. Pour nos exigences, l'outil «Spyder» se trouve le plus approprié. Nous devons donc télécharger, installer et enfin lancer l'outil. Une fois l'interface affichée, nous ouvrons un nouveau fichier en cliquant sur le bouton «Fichier» et en choisissant l'option «Nouveau fichier». Un nouveau fichier avec le «.L'extension py ”est ouverte. Le ".py "fait référence au fichier" python ".

Maintenant, commencez à écrire le code Python. Avant de commencer notre code principal, nous devons obtenir des bibliothèques nécessaires sur ce fichier Python. Pour le sujet actuel, nous n'avons pas besoin de nombreuses bibliothèques mais un seul package qui est «Pandas». Ainsi, nous écrivons le code «Importer des pandas en tant que PD» qui importe toutes les fonctionnalités de Pandas dans notre fichier Python. Nous pouvons y accéder en utilisant le «PD» au lieu de «pandas» tout au long du script.

Puisque nous devons calculer la covariance parmi les colonnes d'une dataframe, nous devons avoir un pandas dataframe où nous exerçons cette méthode. Pour construire un dataframe, Pandas nous fournit un «PD.Fonction DataFrame () ”. Comme nous savons déjà que «PD» est les «pandas», nous accédons à la méthode des pandas. Le «dataFrame ()» est le mot-clé de cette fonction qui, lorsqu'il est invoqué, crée un dataframe. Nous générons une dataframe en utilisant ce «PD.DataFrame () ”Méthode et l'initialisée avec trois colonnes -« Alpha »,« Beta »et« Gamma ».

Notre première colonne «Alpha» stocke six valeurs qui sont «3», «4», «1», «10», «5» et «7». La deuxième colonne «Beta» contient six valeurs qui sont «12», «2», «8», «13», «4» et «5». La troisième et la dernière colonne «Gamma» ont les valeurs «4», «6», «12», «9», «3» et «10». Toutes ces colonnes stockent le type de valeurs entier et sont de la même longueur qui est 6.

Maintenant, pour stocker ce DataFrame, nous créons un objet DataFrame ou une variable «grade». Cette variable «grade» attribue la sortie générée en appelant les pandas «PD.Méthode DataFrame () ». Donc, quand nous appelons le «PD.DataFrame () ”Méthode, un Pandas DataFrame est créé et stocké en« grade ». Nous pouvons accéder au dataframe avec cet objet. Nous avons généré le dataframe et l'avons stocké. Maintenant, qu'en est-il de l'afficher? Pour afficher le dataframe sur le terminal, nous avons une méthode très simple et pratique «print ()». Cette méthode prend la variable, la fonction ou la déclaration comme paramètre et l'affiche simplement sur le terminal. Nous l'écrivons comme «imprimer (grade)» et il affichera le dataframe.

Lorsque nous cliquez sur le bouton «Exécuter le fichier» de l'outil «Spyder» ou appuyez sur les touches «Shift + Entrée», un dataframe avec trois colonnes et six lignes s'affiche sur le terminal.

Maintenant, nous devons effectuer notre tâche principale où nous avons créé ce DataFrame qui calcule la covariance. Pour calculer la covariance parmi toutes les colonnes de ce dataframe, nous avons une méthode fournie par Pandas «Cov ()». Pour utiliser cette méthode, nous avons appelé le «.COV () ”Méthode avec le nom de DataFrame« Grade.cov () ". Cela calcule la covariance sur le dataframe fourni. Ensuite, nous avons mis cette méthode entre les parenthèses de la méthode «print ()» pour afficher le dataframe avec une covariance calculée sur toutes ses colonnes. Sinon, vous pouvez créer une variable et stocker la covariance calculée et l'afficher à l'aide de la méthode «print ()».

L'exécution du script expliquée nous obtient précédemment une matrice avec une covariance calculée entre toutes les colonnes de la «note» de Dataframe «Grade». Vous pouvez voir que toutes les valeurs de covariance sont positives.

Exemple 2

Maintenant, nous verrons ce qui se passera lorsque nous avons des valeurs «nan» (pas un nombre) dans notre dataframe et que nous devons calculer la covariance sur ce dataframe. Lorsque le dataframe a des valeurs «nan», la fonction «cov ()» ignore ces valeurs «nan» et calcule la covariance entre le reste des valeurs.

À cette fin, nous avons utilisé le dataframe de Data précédemment créé et l'avons modifié en fonction de nos exigences. Nous avons changé une valeur de chaque colonne du dataframe à une valeur «Aucun». La deuxième valeur de la colonne «Alpha» est changée en «Aucun», la deuxième valeur de la colonne «Beta» est modifiée en «aucun» et la cinquième valeur de la colonne «Gamma» est également modifiée en «aucun». Ensuite, nous avons simplement affiché la fonction de données modifiée avec la fonction «print ()».

C'est à quoi ressemble notre dataframe mis à jour avec les valeurs NAN.

Nous calculons sa covariance maintenant. Nous avons simplement invoqué la fonction «Cov ()» avec le nom du DataFrame et transmis cette fonction comme un paramètre à la méthode «print ()» pour afficher la covariance calculée avec des valeurs «nan».

Lorsque nous exécutons le script mentionné précédemment, il nous affiche la covariance calculée pour toutes les colonnes dans le dataframe où, après avoir ignoré les valeurs «nan», la covariance entre ces colonnes ayant des valeurs «nan» est négative.

Exemple 3

Vous avez appris à calculer la covariance parmi toutes les colonnes du dataframe avec ou sans aucune valeur «nan». Ici, nous vous familiariserons avec une autre technique d'utilisation de la fonction «Cov ()». Cette technique est de calculer la covariance entre deux séries Pandas. Nous utilisons le dataframe que nous avons créé dans la première illustration de ce guide. À partir de ce DataFrame, nous créons deux séries Pandas.

Pour créer une série, nous employons le «PD.Série () ”Fonction. Entre ses accolades, vous pouvez définir les valeurs manuellement mais, dans notre illustration, nous créons la série à partir de la «note» de données précédemment créée. Ainsi, nous fournissons le nom de la colonne avec le nom de Dataframe entre le «PD.Série () ”fonctionne comme« pd.Série (grade ['alpha']) ". Ensuite, nous stockons cette série dans une variable «V1». Nous créons une autre série avec les mêmes étapes en utilisant la colonne de Dataframe «Grads» cette fois comme «PD.Série (grade ['gamma']) »et le stocker en variable« v2 ».

Nous utilisons la méthode «print ()» pour imprimer à la fois la série «V1» et «V2». Dans la dernière étape, nous calculons la covariance en invoquant la méthode «Cov ()». Écrivez le titre de la première série avec le «.COV () ”Fonction puis la deuxième série dans ses accolades en tant que« V1.CoV (v2) ». Passez ceci en tant que paramètre à la méthode «print ()» pour l'afficher.

Cela nous donne la sortie suivante avec la covariance calculée entre les deux séries Pandas.

Conclusion

Le calcul de la covariance entre toutes les colonnes du dataframe ou entre les deux séries créées à partir de la dataframe peut être effectuée avec une fonction de pandas simple et efficace - «Cov ()». Cet article vous a fourni la mise en œuvre pratique des codes Python exécutés sur l'outil «Spyder». La première illustration vous a été expliqué pour estimer la covariance parmi les colonnes de Pandas Dataframe. Le deuxième exemple était basé sur l'apprentissage du calcul de la covariance avec des valeurs «nan». Et le dernier exemple s'est concentré sur la recherche de la covariance entre deux séries Pandas. Nous avons élaboré chaque mineur aux détails majeurs de cet article pour rendre l'apprentissage amusant pour vous.