«Le package Numpy de Python propose une fonction nommée« Corrcoef »; Cette fonction est utilisée chaque fois que nous devons calculer les coefficients de corrélation pour le «Pearson Product-Moment». Les coefficients de corrélation que nous avons calculés pour le produit de produit Pearson parlent de l'étendue de la corrélation entre les deux variables. Ces coefficients de corrélation sont souvent calculés lorsque les deux graphiques sont tracés sur le tracé dispersé, et nous nous attendons à ce que la relation entre ces variables soit plus inclinée vers la relation linéaire, alors en utilisant le coefficient de corrélation, nous estimons l'affiliation linéaire entre les variables et Ces coefficients de corrélation sont représentés comme «R».
Le Numpy est connu pour être la bibliothèque la plus reconnaissable de Python, et toutes les opérations (mathématiques et algébriques) peuvent être appliquées sur le ND-Arrays en utilisant les fonctions offertes par ce package de bibliothèque."
Procédure
Cet article montrera la méthode pour estimer la corrélation entre les deux variables en utilisant la fonction Numpy Corrcoef (). Nous apprendrons la méthode pour écrire le programme dans le script Python pour cette fonction en exécutant pratiquement le programme sur le compilateur Python pour différents exemples.
Syntaxe
Les fonctions prendront les variables ou les tableaux, et les corrélations entre ces tableaux seront ensuite calculées par la fonction et seront renvoyées comme sortie de la fonction.
nombant. Corrcoef (x, y = aucun, rowvar = true, biais =, ddof =, dtype)
Les «x» et «y» sont les tableaux que nous devons spécifier pour calculer les coefficients de corrélation de la variable. «Row Var» est un paramètre facultatif; Si sa valeur est définie sur True, qui est également sa valeur par défaut, alors la fonction considère que chaque ligne est une variable autrement dans le cas de FAUX chaque colonne représente une variable. «DTYPE» est le type de données dont la valeur par défaut est le «flotteur» pour la sortie et les deux paramètres «biais» et «DDOF» sont facultatifs ou ne sont pas considérés, donc nous ne prenons pas la peine de les utiliser.
Valeur de retour
La valeur de retour pour la méthode Numpy Corrcoef () sera les coefficients de corrélation qui révélent la corrélation entre les variables.
Exemple # 01
Lorsque nous travaillons sur les statistiques et la science des données, nous apprenons que ces deux domaines sont plus soucieux de connaître la relation entre les variables de l'ensemble de données. Chaque point de données d'un ensemble de données est l'observation, et les propriétés de chaque observation sont représentées comme une caractéristique, et ces caractéristiques sont les variables de l'ensemble de données. Et quel que soit l'ensemble de données que nous utilisons, la fonctionnalité ou les variables et observations.
Pour comprendre la corrélation entre les caractéristiques, pensez à un exemple de «comment la précision de tir du basket-ball à la cible du joueur est affectée par la hauteur du joueur». Nous avons maintenant appris quelle est exactement la fonctionnalité et combien il est important de savoir sur leur corrélation. Donc, avec cela, explorons cette fonction Corrcoef () en l'implémentant sur les arrayons ND pour trouver la corrélation entre les caractéristiques des tableaux. Le logiciel que nous utiliserons pour implémenter l'exemple est «Spyder», qui y a installé des packages de bibliothèque.
Nous commencerons par la rédaction du programme et importerons le module Numpy de la bibliothèque Numpy; Ceci est obligatoire pour travailler avec les ND-Arrays. Nous passerons à l'étape suivante et créerons deux tableaux (unidimensionnels) en appelant le «NP. Méthode Array () ”et nommera respectivement les tableaux" arr_1 "et" arr_2 ". Nous pouvons initialiser les tableaux avec des éléments aléatoires, donc pour l'exemple, nous les spécifierons comme «[3, 6, 9]» pour arr_1 et «[4, 7, 8]» pour arr_2. Maintenant, nous voulons connaître la corrélation entre ces deux tableaux, nous transmettrons donc ces tableaux à l'argument d'entrée de la fonction «NP. Corrcoef (ARR_1, ARR_2) "puis affichez les résultats de cette fonction. Le code de cet exemple est réécrit dans le langage de programmation «Python» comme suit:
La fonction a renvoyé un tableau 2D des coefficients de corrélation ayant le type de données par défaut «flotter». Avec ces coefficients de corrélation, nous pouvons désormais estimer la linéarité dans la relation entre deux ou même plus de deux variables. Pour cet exemple, si nous observons la matrice 2D, les valeurs diagonales supérieures sont «1», c'est parce que ces valeurs sont la corrélation entre les ARR_1 et ARR_1 et ARR_2 avec ARR_2, tandis que les valeurs inférieures à gauche et à droite supérieur sont les valeurs corrélation entre l'ARR_1 et ARR_2 et ils sont les mêmes et ont la valeur «0.96 ”, et cela représente les coefficients de corrélation de produits de produit Pearson.
Exemple # 02
Cet exemple prendra le Corrcoef () pour les tableaux bidimensionnels, et nous définirons ces deux tableaux par la méthode «NP. déployer ()". Les éléments de ces deux tableaux seront «([3, 6, 9], [4, 7, 8])» et «[[6, 3, 8], [2, 5, 12])», respectivement. Nous nommerons ces deux 2D-Arrays «ARR_1» et «ARR_2», puis nous passerons ces tableaux à la méthode Numpy Corrcoef () et enregistrerons les résultats de cette fonction et les afficherons en utilisant la méthode print (). Le code de cet exemple est illustré dans la figure attachée ci-dessous. Nous copierons ce code et le ferons s'exécuter sur le compilateur "Spyder".
La sortie a affiché le tableau à quatre dimensions ayant les coefficients de corrélation comme éléments avec le type de données flottante. Ces coefficients représentent la relation entre les tableaux bidimensionnels que nous avions déclarés dans l'exemple. À partir de l'article, observez que la diagonale supérieure a la même valeur de 1, ce qui montre qu'ils sont les coefficients de corrélation pour les mêmes variables, et les valeurs à d'autres endroits sont variables; C'est parce que ces valeurs montrent la corrélation entre les différentes variables.
Conclusion
Ce guide couvre la fonction de coefficient de corrélation pour le «Pearson Product-Moment». Nous avons démontré dans l'article comment nous pouvons appliquer cette fonction sur les tableaux unidimensionnels et multidimensionnels et sous quelle forme la fonction renverra la sortie pour les arries ND. Nous avons analysé plus en détail les sorties de la fonction des deux exemples différents.