Méthode de corrélation des pandas

Lola Bonnet

«Pandas» est une bibliothèque Python que nous utilisons pour analyser les données. Il s'agit d'un outil d'analyse et de traitement open source rapide, puissant, adaptable et convivial. Les valeurs sont conservées dans un format de ligne et de colonne à l'aide d'un modèle de données bidimensionnel connu sous le nom de «Pandas DataFrame».

Maintenant, les pandas peuvent aider à la production d'une variété de cartes d'analyse des données. La corrélation est une technique. La corrélation est une statistique très utile qui indique comment deux ensembles de données sont liés aux uns aux autres. Les pandas «DataFrame.Corr () ”peut être utilisé pour trouver la corrélation entre deux colonnes ou même plus dans un dataframe. Une corrélation positive signifie que les valeurs en un groupe continuent d'augmenter avec une augmentation de l'autre, tandis qu'une corrélation négative implique que les valeurs en un groupe continuent de baisser avec une augmentation de l'autre.

Pandas dataframe.Fonction Corr ()

Nous pouvons utiliser les pandas «DataFrame.Corr () ”Fonction en suivant la syntaxe fournie ci-dessous:

Lorsque vous utilisez la méthode «corr ()» pour calculer la corrélation de Pearson entre deux colonnes Pandas, il produit une seule figure qui représente la corrélation de Pearson entre les deux colonnes. Vous pouvez également utiliser la méthode explicitement sur une dataframe pour générer une matrice de corrélations par paire entre diverses colonnes.

Exemple 1

Dans cet exemple, nous trouverons la corrélation entre trois colonnes d'un dataframe. Pour la mise en œuvre pratique de cette méthode dans Python, nous avons utilisé l'outil «Spyder». Ouvrez un nouveau fichier Python dans l'outil "Spyder". L'exigence la plus importante au début de l'écriture du script est d'importer des bibliothèques pertinentes. Comme nous devons implémenter une méthode «pandas», nous avons donc «importer des pandas en tant que PD» pour accéder aux fonctionnalités des «pandas».

Ensuite, nous commençons notre code python principal. Nous avons créé un dataframe en utilisant le «PD.Méthode DataFrame () ». Le DataFrame est initialisé par trois colonnes «ordinateur», «chimie» et «mathématiques». Toutes les colonnes de DataFrame stockent la même longueur de valeurs. La première colonne, «Computer», a huit valeurs entières, qui sont «80», «75», «62», «89», «63», «41», «73» et «54». La deuxième colonne, «Chemistry», stocke également huit valeurs int qui sont «87», «67», «53», «54», «66», «82», «58» et «66». La dernière colonne, «Math», a des valeurs «93», «75», «65», «47», «83», «78», «83» et «98».

Pour afficher notre DataFrame initial, nous avons utilisé la méthode «print ()» avec le nom de DataFrame «Data» comme paramètre dans la ligne finale du script.

Pour afficher la sortie sur le terminal, utilisez le bouton "Exécuter le fichier" sur l'outil "Spyder" ou appuyez sur les touches "Shift + Enter". La sortie affichée sur le terminal montre un dataframe avec trois colonnes qui sont créées avec succès.

Nous avons créé notre DataFrame fondamental. Maintenant, nous devons trouver la corrélation entre deux colonnes de nos données «données». Pour ce but, nous avons utilisé des pandas «DataFrame.Corr () ”Fonction, qui calculera la corrélation entre les deux colonnes spécifiées à partir du dataframe. Nous devons d'abord fournir le titre du DataFrame avec le premier nom de colonne, puis le «.Corr () ”Fonction ayant le nom de la deuxième colonne entre ses parenthèses.

Ici, nous avons utilisé la colonne «Computer» et la colonne «mathématiques» pour trouver la corrélation entre elles comme «Données [« ordinateur »].corr (data ['math']) ". Nous avons créé un «résultat» variable et lui avons attribué la sortie de l'appel «.Corr () ”Méthode. Ensuite, la fonction «print ()» est appelée pour afficher la correction des deux colonnes.

Dans l'image de sortie, vous pouvez voir que la corrélation calculée entre les colonnes «ordinateur» et «mathématiques» est dans une figure négative qui montre la corrélation entre ces deux colonnes est négative ou faible.

De même, nous pouvons vérifier la corrélation entre l'une des deux colonnes. Pour votre commodité, nous avons trouvé la corrélation entre deux autres colonnes ici. Cette fois, nous avons choisi la première colonne «mathématiques» et la deuxième colonne «chimie» et invoqué le «.corr () ". Nous avons stocké la sortie qui sera générée à partir de l'appel de cette fonction, je.e., La corrélation des «mathématiques» et de la «chimie». Maintenant, nous pouvons accéder à cette sortie en utilisant la variable «Résultat». La fonction «print ()» imprime simplement la sortie.

Le résultat généré à partir de ce script peut être visualisé dans l'image ci-dessous. Ici, la corrélation calculée entre les colonnes «mathématiques» et «chimie» est en valeur positive, ce qui signifie que leur corrélation est positive ou forte.

Exemple n ° 2

Nous pouvons également trouver des corrélations entre toutes les colonnes d'un dataframe en utilisant les pandas «DataFrame.Corr () ”Méthode. Dans cet exemple, vous apprendrez à travers sa mise en œuvre pratique.

Pour une démonstration, nous avons utilisé l'outil «Spyder», que nous avons déjà installé dans notre système. Nous devons d'abord importer la bibliothèque essentielle de cette méthode qui est Pandas. Nous avons utilisé le script «Importer des pandas comme PD» pour importer des pandas dans notre fichier Python dans l'outil «Spyder», qui nous permettra d'accéder aux modules Pandas à l'aide du «PD». Nous avons ensuite utilisé le «PD.Fonction DataFrame () ”pour construire un DataFrame. Ce DataFrame a quatre colonnes «nom», «points», «aides» et «taxes».

Chaque colonne stocke six valeurs. La colonne «Nom» a des valeurs de chaîne qui sont «A», «B», «C», «X», «Y» et «Z». La colonne «Points» a six valeurs entières qui sont «17», «22», «15», «14», «24» et «21». La colonne «Aides» a six valeurs entières «2», «13», «9», «4», «12» et «10». La dernière colonne, «Tax», a des valeurs «12», «4», «6», «11», «13» et «20». Nous avons créé un objet DataFrame «Info» et lui avons attribué la sortie de l'invoquer le «PD.Méthode DataFrame () ». Ainsi, la trame Dataframe résultante générée à partir du «PD.DataFrame () "sera stocké dans" Info ".

Maintenant, nous pouvons accéder au dataframe en utilisant cet objet. Pour afficher ce DataFrame, nous avons utilisé la méthode «print ()» avec l'objet DataFrame «Info» comme paramètre.

Dans le programme Python précédent, une dataframe avec quatre colonnes serait affichée sur le terminal. Comme vous pouvez le voir dans l'image suivante:

Maintenant, nous devons trouver la corrélation entre toutes les colonnes du DataFrame à l'aide du Pandas «DataFrame.Corr () ”Méthode. Notre objectif est de calculer la corrélation entre toutes les colonnes, nous devons donc écrire le nom de DataFrame, qui est «info», avec le «.Corr () ”Méthode. Nous avons créé une variable «R» pour stocker le résultat, ce que nous obtiendrons en appelant «Info.Corr () ”Méthode. Nous avons finalement imprimé le contenu stocké dans la variable «R» en invoquant la fonction «print ()».

Ici, nous avons obtenu notre corrélation de sortie entre les trois colonnes numériques du DataFrame «Info». Nous pouvons voir dans l'instantané de sortie qu'il existe une corrélation négative entre les «points» et «taxes». Les «assistances» et «taxes» partagent également une corrélation négative, tandis que toutes les autres paires partagent une corrélation positive entre eux. Vous avez peut-être observé que les diagonales ont la valeur «1». Cela signifie que chaque colonne est précisément couplée à elle-même.

Conclusion

Nous avons fait une introduction à Pandas «DataFrame.Corr () ”Méthode. Cette méthode est très importante dans le processus de calcul de la relation entre les différentes colonnes. Nous avons effectué deux exemples pratiques sur l'outil «Spyder». Dans le premier exemple, nous avons élaboré et expliqué le concept de trouver la corrélation entre deux colonnes du dataframe, tandis que l'autre exemple est basé sur le calcul de la corrélation entre toutes les colonnes du dataframe. Assurez-vous de suivre toutes les étapes réalisées dans le processus de mise en œuvre pratique pour comprendre la méthode de corrélation des pandas.

Docker

Quelle est la différence entre Docker et Podman?

Docker utilise une architecture client-serveur tandis que Podman est un moteur de conteneur de démon...

Jules Colin

Comment créer un cadre de données vide R

Tutoriel sur les différentes approches pour créer une dataframe vide à l'aide des données.Fonction (...

Lena Dupuy

Base de données Oracle

Oracle Fusion est-il considéré comme mieux que SAP?

Oracle Fusion (ERP basé sur le cloud) a une interface conviviale, tandis que SAP (Cloud et ERP sur s...

Sarah Roux