Régression logistique dans r

Régression logistique dans r
Dans la science des données et les statistiques, il s'agit d'un modèle de régression si la variable dépendante se traduit par des valeurs catégorielles comme True / False, oui / non ou 0/1. Habituellement, le modèle de régression logistique est binomial. Cependant, il peut être étendu. Il mesure la probabilité de succès ou d'échec d'un événement en tant que variable dépendante qui est basée sur une équation mathématique. Cette équation relie la variable dépendante (variable de réponse) avec les variables indépendantes (prédicteur).

On peut dire que la régression logistique est une forme généralisée de régression linéaire mais la principale différence est dans la plage de valeur prévue est (-∞, ∞) tandis que la plage de valeur prévue dans la régression logistique est (0,1). Dans cet article, nous apprendrons la régression logistique et comment la mettre en œuvre dans le langage de programmation R.

Pourquoi utiliser la régression logistique

Après avoir compris la relation entre indépendant (variables prédictives) et dépendante (variable de réponse), la régression linéaire est souvent utilisée. Lorsque la variable dépendante est catégorique, il est préférable de choisir la régression logistique. C'est l'un des modèles les plus simples mais très utile dans différentes applications car il est facile à interpréter et rapide dans la mise en œuvre.

Dans la régression logistique, nous essayons de classer les données / observation en classes distinctes qui montrent que la régression logistique est un algorithme de classification. La régression logistique peut être utile dans différentes applications telles que:

Nous pouvons utiliser le dossier de crédit et le solde bancaire d'un client pour prédire si le client est éligible pour contracter le prêt de la banque ou non (la variable de réponse sera «éligible» ou «non éligible. Vous pouvez accéder à partir de la condition ci-dessus que la variable de réponse ne peut avoir que deux valeurs. Tandis que dans la régression linéaire, la variable dépendante peut prendre des valeurs multiples plus continues.

Régression logistique dans r dans Ubuntu 20.04

Dans R lorsque la variable de réponse est binaire, le meilleur pour prédire une valeur d'un événement est d'utiliser le modèle de régression logistique. Ce modèle utilise une méthode pour trouver l'équation suivante:

Log [p (x) / (1-p (x))] = β0 + β1x1 + β2x2 +… + βpxp

XJ est la variable prédictive JTH et βJ est l'estimation du coefficient pour le xj. Une équation est utilisée par le modèle de régression logistique pour calculer la probabilité et génère l'observation / sortie de la valeur 1. Cela signifie la sortie avec une probabilité égale à 0.5 ou plus seront considérés comme la valeur 1. À part cela, toutes les valeurs seront considérées comme 0.

p (x) = eβ0 + β1x1 + β2x2 +… + βpxp / (1 + eβ0 + β1x1 + β2x2 +… + βpxp)

L'exemple étape par étape suivant vous apprendra à utiliser la régression logistique dans R.

Étape 1: Chargez les données du modèle en R
Tout d'abord, nous devons charger un ensemble de données par défaut pour démontrer l'utilisation du modèle. Cet ensemble de données comprend 1000 observations comme indiqué ci-dessous.

Dans ces colonnes d'ensemble de données, la valeur par défaut montre si un individu est une valeur par défaut. L'élève montre si un individu est un étudiant. L'équilibre montre le solde moyen d'un individu. Et le revenu indique le revenu d'un individu. Pour construire un modèle de régression, le statut, le solde bancaire et le revenu seront utilisés pour prédire la probabilité que les individus soient par défaut.

Étape 2: Création des échantillons de formation et de test
Nous diviserons l'ensemble de données en un ensemble de tests et un ensemble de formation pour tester et former le modèle.

70% des données sont utilisées pour l'ensemble de formation et 30% pour l'ensemble de tests.

Étape 3: Ajustement de la régression logistique
En R, pour adapter la régression logistique, nous devons utiliser une fonction GLM et régler la famille sur binomial.

Dans les cotes logarithmiques, la variation moyenne est indiquée par les coefficients. La valeur p du statut étudiant est 0.0843 La valeur p de l'équilibre est <0.0000, P-value of income is 0.4304. These values are showing how effectively each independent variable is at predicting the likelihood of default.

Dans R, pour vérifier dans quelle mesure notre modèle logistique s'inscrit dans les données de McFadden, R2 Metric est utilisée. Il varie de 0 à 1. Si la valeur est proche de 0, il indique que le modèle n'est pas ajusté. Cependant, les valeurs de plus de 0.40 sont considérés comme un modèle ajusté. La fonction PR2 peut être utilisée pour calculer R2 de McFadden.

Comme la valeur ci-dessus est supérieure à 0.472, cela indique que notre modèle a une puissance prédictive élevée ainsi que le modèle est ajusté.

L'importance d'une fonction peut également être calculée par l'utilisation de la fonction Varimp. La valeur plus élevée indique que l'importance de cette variable sera plus élevée que les autres.

Étape 4: Utilisez le modèle de régression logistique pour faire des prédictions
Après avoir ajusté le modèle de régression, nous ne pouvons pas faire de prédictions quant à savoir si un individu va défaut ou non sur différentes valeurs de solde, de revenus et de statut de l'étudiant:

Comme nous pouvons le voir, si le solde est de 1400, le revenu est de 2000 avec le statut de l'étudiant «oui» ayant un 0.02732106 Probabilité de défaut. D'un autre côté, un individu ayant les mêmes paramètres mais le statut d'étudiant «non» a un 0.0439 Probabilité de défaillance.

Pour calculer chaque individu de notre ensemble de données, le code suivant est utilisé.

prévu <- predict(model, test, type="response")

Étape 5: Diagnostic du modèle de régression logistique:
Dans cette dernière étape, nous analyserons les performances de notre modèle dans la base de données de test. Par défaut, les individus ayant une probabilité supérieure à 0.5 sera prévu «par défaut». Cependant, en utilisant le Optimalcutoff () La fonction maximisera la précision de notre modèle.

Comme nous pouvons le voir ci-dessus, 0.5451712 est le coupable optimale. Ainsi, un individu ayant une probabilité de 0.5451712 d'être «par défaut» ou plus sera considéré comme «par défaut». Cependant, un individu a une probabilité inférieure à 0.5451712 sera considéré comme «non par défaut»

Conclusion

Après avoir passé ce tutoriel, vous devriez être familier avec la régression logistique dans le langage de programmation R dans Ubuntu 20.04. Vous pourrez également vous identifier lorsque vous devriez utiliser ce modèle et pourquoi il est important avec les valeurs binomiales. Avec l'aide des codes et des équations, nous avons implémenté les cinq étapes de l'utilisation de la régression logistique en R avec des exemples pour l'expliquer en détail. Ces étapes couvrent tout ce qui commence du chargement des données à R, de la formation et du test de l'ensemble de données, de l'ajustement du modèle et de la création de prédiction pour modéliser les diagnostics.