Régression logistique sklearn

Régression logistique sklearn

Python est un langage de programmation moderne de haut niveau d'objet conçu pour aider les programmeurs à créer et à écrire des codes faciles à comprendre et simples. C'est un langage de programmation de haut niveau simple et facile, le meilleur et facile à comprendre pour les débutants. Ses structures de données de haut niveau intégrées, ainsi que la dactylographie et la liaison dynamiques, en font un excellent choix pour le développement rapide des applications. Sa syntaxe simple le rend plus lisible, ce qui réduit finalement le coût du maintien du programme. Il prend en charge divers packages et modules qui mettent l'accent sur la réutilisation du code et l'amélioration de la modularité du programme. Sa vaste bibliothèque standard et plusieurs interprètes sont disponibles gratuitement et en ligne. La capacité de Python d'une productivité accrue fait que les programmeurs tombent amoureux de la langue.

De plus, le cycle d'édition, de test et de débogage est incroyablement rapide car il n'y a pas d'étape de complication impliquée. Python rend les principes d'apprentissage automatique simples à apprendre et à comprendre. Il donne une vue sur les yeux de l'oiseau sur la façon de parcourir un petit ou un grand projet d'apprentissage automatique. Cet article concerne ce qu'est une régression logistique et ses classificateurs. Commençons par les principes fondamentaux de la régression logistique.

Définition de régression logistique

La régression logistique est un algorithme de classification. Un algorithme d'analyse de régression approprié de la fraternité de l'apprentissage automatique décrit les données. Il explique la relation entre plusieurs variables, je.e., Niveau de rapport ou variable indépendante d'intervalle, variable binaire dépendante ou nominale. La régression logistique est généralement utilisée dans des modèles statistiques pour comprendre les données et la relation entre les variables dépendantes et indépendantes en prédisant les probabilités des variables dépendantes catégorielles. À mesure que le nombre de données augmente rapidement, la force de la puissance de calcul et de l'amélioration de l'algorithme augmente, améliorant l'importance de l'apprentissage automatique et de la science des données. À travers l'apprentissage automatique, la classification est devenue le domaine essentiel et l'une de ses méthodes de base est la régression logistique. À la fin de cet article, vous pourrez implémenter une régression logistique sur différents types de données. Commençons à appliquer des classes, des fonctions et des packages appropriés pour effectuer une régression logistique dans Python. L'un des packages Python communs pour la régression logistique est Sklearn. Ici, nous vous montrerons un exemple pratique étape par étape de la régression logistique Sklearn en python pour vous aider à comprendre comment implémenter la régression logistique Skary en Python.

Étapes pour implémenter la régression logistique Sklearn dans Python

Étape 1: Collectez les données

Pour commencer par un petit ou un grand projet, la première chose dont vous avez besoin est les données sur lesquelles vous construirez un modèle de régression logistique. Voici la commande pour préparer le modèle pour l'ensemble de données.

Étape 2: Importez les packages nécessaires de Python

Une fois que vous avez installé le dataprep, l'étape suivante consiste à importer les packages nécessaires pour implémenter la régression logistique. Ici, nous apprenons le package Sklearn, qui est essentiellement utilisé pour construire le modèle de régression logistique à Python. Les packages suivants doivent être installés:

Importer des pandas en tant que PD
Importer Numpy comme NP
Importer Matplotlib
Importer Matplotlib.pypllot comme plt
Importer Seaborn comme SNS
de Sklearn.prétraitement d'importation
de Sklearn.Les métriques importent confusion_matrix
de Sklearn.Les métriques importent make_scorer, précision_score, précision_score, rappel_score, f1_score, confusion_matrix, classification_report
de Sklearn.linear_model importer la logistiquegression
de Sklearn.Model_Selection Import Train_test_split
à partir des métriques d'importation de Sklearn
de Sklearn.Métriques Import Précision_SCORE
de imbearn.Over_sampling Import Sacture

Étape 3: Chargez les données pour créer un dataframe

L'étape suivante consiste à capturer l'ensemble de données, pour lequel vous avez besoin de la commande suivante à utiliser:

df = pd.read_csv ("/ contenu / drive / mydrive / covid dataSet.CSV ")

De cette façon, vous pouvez importer les données à partir d'un fichier externe; Cependant, vous pouvez également définir l'ensemble de données sous la forme d'un tableau.

Étape 4: Création de la régression logistique après le chargement des données

L'étape suivante consiste à développer la régression logistique dans Python après que les données ont été placées dans une application Python. Dans cette étape, vous devez définir les variables dépendantes et indépendantes. Voici comment vous pouvez définir la variable:

X = df.Drop ('Covid-19', axe = 1)
y = df ['covid-19']

La variable «x» représente la variable indépendante et la variable «y» représente la variable dépendante. Appliquez maintenant la fonction Train_text_Split pour définir la taille des tests et de la formation de l'ensemble de données.

X_train, x_test, y_train, y_test = Train_test_split (x, y, test_size = 0.20)

Étape 5: Appliquer la régression logistique

Appliquez maintenant la régression logistique en suivant la commande ci-dessous:

modèle = logistique ()
# Ajuster le modèle
modèle.fit (x_train, y_train)
y_pred = modèle.prédire (x_test)
acc_logreg = modèle.Score (x_test, y_test) * 100

Étape 6: tracer la matrice de confusion

La dernière partie consiste à tracer la matrice de confusion qui montre la précision sous une vraie forme positive et fausse positive.

confusion_mtx = confusion_matrix (y_test, y_pred)
# tracer la matrice de confusion
# tracer la matrice de confusion
F, AX = PLT.sous-intrigues (FigSize = (8, 8))
sns.HeatMap (confusion_mtx, annot = true, linewidths = 0.01, cmap = "greens", lineColor = "gris", fmt = '.1f ', ax = ax)
PLT.xlabel ("étiquette prédite")
PLT.YLABEL ("True Label")
PLT.Titre ("Matrice de confusion")
PLT.montrer()

Pour imprimer la précision ou, en d'autres termes, le rapport de classification, utilisez la commande suivante:

print (classification_report (y_test, y_pred)))

Une fois que vous avez exécuté toutes les commandes, vous obtiendrez une matrice de confusion ainsi qu'un rapport de classification. Jetez un œil à la sortie ci-dessous.

Matrice de confusion:

True Positive (TP), False négatif (FN), True Négatif (TN) et Faux positifs (FP) sont les quatre valeurs fondamentales de la matrice de confusion.

Rapport de classification:

Le rapport de classification fournit la précision du modèle formé, qui peut être réalisé en utilisant la formule:

Précision = (tp + tn) / total

Conclusion:

Cet article nous a appris la régression logistique et la bibliothèque Sklearn à Python. Les données sont expliquées et le lien entre les variables dépendantes et indépendants est décrit en utilisant la régression logistique. La bibliothèque Sklearn à Python est principalement utilisée dans les données statistiques où la prédiction ou la probabilité est nécessaire pour être connue.