Qu'est-ce que la régression linéaire?
Dans la science des données, la régression linéaire est un modèle d'apprentissage automatique supervisé qui tente de modéliser une relation linéaire entre les variables dépendantes (Y) et les variables indépendantes (X). Chaque observation évaluée avec un modèle, la valeur réelle de la cible (Y) est comparée à la valeur prédite de la cible (Y), et les principales différences dans ces valeurs sont appelées résidus. Le modèle de régression linéaire vise à minimiser la somme de tous les résidus carrés. Voici la représentation mathématique de la régression linéaire:
Y = a0+un1X + ε
Dans l'équation ci-dessus:
Y = Variable dépendante
X = Variable indépendante
un0 = Interception de la ligne qui offre un DOF ou un degré de liberté supplémentaire.
un1 = Coefficient de régression linéaire, qui est un facteur d'échelle à chaque valeur d'entrée.
ε = Erreur aléatoire
N'oubliez pas que les valeurs des variables X et Y sont des ensembles de données de formation pour la représentation du modèle de la régression linéaire.
Lorsqu'un utilisateur met en œuvre une régression linéaire, les algorithmes commencent à trouver la meilleure ligne d'ajustement en utilisant un0 et un1. De cette manière, il devient plus précis pour les points de données réels; Puisque nous reconnaissons la valeur de un0 et un1, Nous pouvons utiliser un modèle pour prédire la réponse.
Régression linéaire simple
Ce type de régression linéaire fonctionne en utilisant la forme traditionnelle de l'interception de pente dans laquelle A et B sont deux coefficients qui sont élaborés «apprendre» et trouver les prédictions précises. Dans l'équation ci-dessous, X signifie des données d'entrée et Y signifie prédiction.
Y = bx + a
Régression multivariable
Une régression multivariable est un peu plus complexe que les autres procédures. Dans l'équation ci-dessous, 𝒘 représente les poids ou le coefficient qui nécessite d'être élaboré. Toutes les variables 𝑥1, 𝑥2, et 𝑥3 Attributs d'information des observations.
Prédiction des prix des maisons à l'aide de régression linéaire
Examinons maintenant chaque étape de la prédiction des prix des maisons en utilisant la régression linéaire. Considérez une entreprise de biens immobiliers avec des ensembles de données contenant les prix de l'immobilier d'une région spécifique. Le prix d'une propriété est basé sur des facteurs essentiels comme les chambres, les zones et le stationnement. Principalement, une entreprise immobilière exige:
Vous trouverez ci-dessous le code pour configurer l'environnement, et nous utilisons Scikit-Learn pour prédire le prix de la maison:
Importer des pandas en tant que PDAprès cela, lisez les prix des données de la maison:
maisons = PD.read_csv ("kc_house_data.CSV ")Voici le tableau avec les détails complets (ensemble de données) de différentes maisons:
Maintenant, nous allons effectuer le nettoyage des données et l'analyse exploratoire en utilisant le code ci-dessous:
#Check pour Nulls dans les donnéesSelon l'ensemble de données, il n'y a pas de nulls disponibles:
Out [3]: id 0Après cela, nous construisons un modèle de régression linéaire. Préparez les données qui définiront la variable prédictrice et de réponse:
# Créer X et YNous pouvons diviser les données en train et tester; Le train ou le test de test présente deux sous-ensembles créés au hasard de nos données. Ces données de test / train sont utilisées pour s'adapter à l'algorithme d'apprentissage afin qu'il puisse apprendre à prédire. L'ensemble de test que nous avons utilisé pour obtenir une idée de travailler le modèle avec de nouvelles données.
# diviser les données en train et testerAprès cela, montez le modèle sur l'ensemble d'entraînement.
# instancier, ajustementUne fois que nous avons installé le modèle, nous devons imprimer tous les coefficients.
Imprimer Linreg.intercepter_La valeur de y sera égale à un0 Lorsque la valeur de x = 0; Dans ce cas, ce sera le prix de la maison lorsque le SQFT_LIVING sera nul. Le A1 Le coefficient est le changement dans le y divisé en modifiant la valeur en x. L'augmentation d'un mètre carré dans la taille de la maison est associée à l'augmentation des prix de 282 dollars.
Maintenant, nous pouvons prédire le prix de la maison de vie de 1000 pieds carrés en utilisant le modèle suivant:
# manuellementUne fois que nous avons terminé avec la procédure ci-dessus, calculez une erreur au carré RMSE ou Root, c'est la métrique la plus couramment utilisée pour évaluer le modèle de régression sur un ensemble de tests:
mse = mean_squared_error (y_test, linreg.prédire (x_test))Donc, comme vous pouvez le voir, nous avons obtenu une erreur carrée moyenne de Root de 259163.48 après avoir prédit les prix de la maison. Nous utilisons une fonctionnalité unique dans le modèle ci-dessus; Le résultat était attendu. Cependant, vous pouvez améliorer le modèle en ajoutant plus de fonctionnalités.
Conclusion
Nous espérons que notre guide détaillé sur la prédiction des prix des maisons à l'aide de la régression linéaire vous a été utile. Comme nous l'avons mentionné précédemment, il existe plusieurs régression linéaire telle qu'une régression simple et une régression multivariée. Nous avons principalement utilisé une régression simple pour prédire facilement le prix de la maison. Cependant, vous pouvez utiliser une régression multivariable pour prédire les résultats plus précisément en utilisant différentes variables. En dehors de celui-ci, nous avons utilisé un ensemble de données complet qui a des informations précises concernant les maisons. Principalement, tous les codes et bibliothèques ci-dessus que nous avons utilisés ne sont pas uniques car il existe une procédure spécifique pour effectuer la procédure de prédiction de la maison par régression linéaire.