Élimination de la distance de cuisinier à Python

Élimination de la distance de cuisinier à Python
La distance de Cook est une approche utile pour identifier les valeurs aberrantes et l'impact de chaque observation sur un modèle de régression particulier. Il peut aider à l'élimination des valeurs aberrantes et à l'étude des points contribuent le moins à la prédiction des variables cibles. Nous examinerons la régression, les valeurs aberrantes et comment la distance de Cook joue un rôle dans le développement d'un bon modèle de régression. Plus tard, nous implémenterons également la distance de Cook à Python.

Qu'est-ce que la régression?

L'analyse de régression est un outil statistique pour analyser la connexion entre les variables indépendantes et dépendantes (cela peut également être étendu de différentes manières). L'application la plus typique de l'analyse de régression est la prévision ou la prévision de la façon dont une collection de conditions affectera un résultat. Supposons que vous ayez un ensemble de données sur les élèves du secondaire qui comprenaient leur GPA, leur sexe, leur âge et leurs scores SAT.

Dans ce cas, vous pouvez créer un modèle de régression linéaire de base avec les facteurs dépendants étant GPA, le sexe, l'ethnicité et l'âge et les variables indépendantes étant les scores SAT. Ensuite, une fois que vous avez le modèle, vous pouvez estimer ce que les étudiants frais marqueront sur le SAT en fonction des quatre autres facteurs, en supposant que c'est un bon ajustement. Un autre bon exemple d'analyse de régression est la prévision des prix des maisons basée sur le nombre de pièces, de zone et d'autres facteurs.

Qu'entendons-nous par régression linéaire?

La régression linéaire est la technique d'apprentissage supervisée la plus courante, la plus simple, mais efficace pour prédire les variables continues. Le but de régression linéaire est de déterminer comment une variable d'entrée (variable indépendante) affecte une variable de sortie (variable dépendante). Voici les éléments de régression linéaire:

  1. La variable d'entrée est généralement continue
  2. La variable de sortie est continue
  3. Les hypothèses de régression linéaire se maintiennent.

Les hypothèses de régression linéaire incluent une relation linéaire entre les variables d'entrée et de sortie, que les erreurs sont normalement distribuées et que le terme d'erreur est indépendant de l'entrée.

Quelle est la distance euclidienne?

La plus petite distance entre deux objets spécifiés dans un plan est la distance euclidienne. Si un triangle droit est tiré des deux points spécifiés, il équivaut à la somme des carrés de la base du triangle et de sa hauteur. Il est couramment utilisé en géométrie à diverses fins. C'est le type d'espace où les lignes qui commencent parallèles restent parallèles et sont toujours à la même distance séparées.

Cela ressemble étroitement à l'espace dans lequel les humains habitent. Cela indique que la distance euclidienne entre deux objets est la même que votre bon sens vous le dit tout en calculant la distance la plus courte entre deux objets. Le théorème de Pythagore est utilisé pour le calculer mathématiquement. La distance de Manhattan est une métrique alternative pour déterminer la distance entre deux places.

Quelle est la distance de Manhattan?

La distance de Manhattan est calculée lorsque l'avion est divisé en blocs, et vous ne pouvez pas voyager en diagonale. En conséquence, Manhattan ne fournit pas toujours la route la plus directe entre deux points. Si deux points dans un plan sont (x1, y1) et (x2, y2), la distance de Manhattan entre eux est calculée comme | x1-x2 | + | y1-y2 |. Ceci est couramment utilisé dans les villes où les rues sont disposées en blocs, et il est impossible d'aller en diagonale d'un endroit à un autre.

Que sont les valeurs aberrantes?

Les valeurs aberrantes dans un ensemble de données sont des nombres ou des points de données anormalement élevés ou bas par rapport aux autres points ou valeurs de données. Une valeur aberrante est une observation qui s'écarte du modèle global d'un échantillon. Les valeurs aberrantes doivent être supprimées car elles réduisent la précision d'un modèle. Les valeurs aberrantes sont généralement visualisées à l'aide de parcelles de boîte. Par exemple, dans une classe d'élèves, nous pouvons nous attendre à ce qu'ils soient entre 5 et 20. Un étudiant de 50 ans dans la classe serait considéré comme une valeur aberrante car il n'appartient pas à la tendance régulière des données.

Le traçage des données (généralement avec un tracé de boîte) est peut-être la technique la plus simple pour voir les valeurs aberrantes de l'ensemble de données. Les processus statistiques liés au contrôle de la qualité peuvent vous dire à quel point vous êtes statistiquement (selon les écarts-types de probabilité et les niveaux de confiance). Cependant, gardez à l'esprit qu'une valeur aberrante n'est une valeur aberrante si vous avez suffisamment d'informations sur les données pour expliquer pourquoi elle est différente des autres points de données, justifiant ainsi le terme «aberrant."Sinon, les données doivent être traitées comme un événement aléatoire. Ils doivent être conservés dans l'ensemble de données - et vous devez accepter les moins désirables (i.e., Résultats moins souhaitables) en raison de l'inclusion du point de données.

Quelle est la distance de Cook?

La distance du cuisinier en science des données est utilisée pour calculer l'influence de chaque point de données comme modèle de régression. La réalisation d'une analyse de régression des moindres carrés est une méthode d'identification des valeurs aberrantes influentes dans un ensemble de variables prédictives. R. Dennis Cook, un statisticien américain, a créé ce concept, c'est pourquoi il porte son nom. Dans la distance de Cook, les valeurs sont comparées pour voir si la suppression de l'observation actuelle affecte le modèle de régression. Plus l'influence d'une certaine observation sur le modèle est grande, plus la distance de la cuisinier de cette observation est grande.
Mathématiquement, la distance de Cook est représentée comme

Di = (di2 / c * m) * (hii / (1-hii) 2)

où:
dje est le ie point de données
C représente le nombre de coefficients dans le modèle de régression donné
M est une erreur carrée moyenne qui est utilisée pour calculer l'écart type des points avec la moyenne
Hii est le ie Valeur de levier.

Conclusions de la distance de Cook

  1. Une valeur aberrante probable est un point de données avec la distance d'un cuisinier plus de trois fois la moyenne.
  2. S'il y a n observations, tout point avec la distance de Cook supérieure à 4 / N est jugé influent.

Implémentation de la distance de Cook à Python

Lire les données
Nous lisons un tableau 2D où «x» représente la variable indépendante tandis que «y» représente la variable dépendante.

Importer des pandas en tant que PD
#create dataframe
df = pd.DataFrame ('x': [10, 20, 30, 40, 50, 60],
'Y': [20, 30, 40, 50, 100, 70])

Création du modèle de régression

importer des modéliers de statistiques.API comme SM
# stockant les valeurs dépendantes
Y = df ['y']
# Stockage des valeurs indépendantes
X = df ['x']
X = sm.add_constant (x)
# ajuster le modèle
modèle = sm.OLS (y, x)
modèle.adapter()

Calculer la distance de Cook

Importer Numpy comme NP
NP.set_printoptions (suppress = true)
# Créer une instance d'influence
influence = modèle.get_influence ()
# Obtenez la distance de Cook pour chaque observation
Cooks_Distances = Influence.COOKS_DISTANCE
# Imprimer les distances de Cook
imprimer (Cooks_Distances)

Autre technique de détection des valeurs aberrantes

Interquartile Range (IQR)
La gamme interquartile (IQR) est une mesure de la dispersion des données. Il est particulièrement efficace pour des données significativement biaisées ou autrement hors de la ligne. Par exemple, les données concernant l'argent (revenus, biens et prix des voitures, économies et actifs, etc.) sont souvent biaisés vers la droite, la majorité des observations étant sur le bas de gamme et quelques-uns dispersés sur le haut de gamme. Comme d'autres l'ont souligné, la gamme interquartile se concentre sur la moitié moyenne des données tout en ignorant la queue.

Conclusion

Nous avons traversé la description de la distance de Cook, ses concepts connexes comme la régression, les valeurs aberrantes et comment nous pouvons l'utiliser pour trouver l'influence de chaque observation dans notre ensemble de données. La distance de Cook est importante pour examiner les valeurs aberrantes et quel impact a chaque observation sur le modèle de régression. Plus tard, nous avons également implémenté la distance de Cook à l'aide de Python sur un modèle de régression.