Dans ce tutoriel, nous allons voir le modèle de régression Numpy (Polyfit).
La fonction Numpy.Polyfit () trouve la meilleure ligne d'ajustement en minimisant la somme de l'erreur au carré. Cette méthode accepte trois paramètres:
Alors, commençons le processus étape par étape pour utiliser la méthode polyfit.
Étape 1: Importez toutes les bibliothèques et packages requis pour exécuter ce programme.
Ligne 91: Nous importons la bibliothèque Numpy et Matplotlib. Le polyfit est automatiquement sous le Numpy, donc pas besoin d'importer. Le matplotlib est utilisé pour tracer les données et Matplotlib en ligne est utilisé pour dessiner le graphique à l'intérieur du cahier Jupyter lui-même.
Importer Numpy comme NPÉtape 2: Maintenant, notre prochaine étape consiste à créer un ensemble de données (X et Y).
Ligne 83: Nous générons au hasard les données X et Y.
x = [28, 8, 11, 37, 15, 25, 51, 11, 32, 34, 43, 2, 40, 16, 40, 25, 40, 17, 21, 57]Étape 3: Nous allons simplement tracer la fonctionnalité (x) et la cible (y) sur le graphique comme indiqué ci-dessous:
PLT.disperser (x, y)Étape 4: Dans cette étape, nous allons ajuster la ligne sur les données x et y.
Cette étape est très facile car nous allons utiliser le concept de la méthode Polyfit. La méthode polyfit est directement livrée avec le Numpy comme indiqué ci-dessus. Cette méthode accepte trois paramètres:
Dans ce programme, nous utilisons le degré polynomial de valeur 1, qui dit qu'il s'agit d'un polynôme au premier degré. Mais nous pouvons également l'utiliser pour le polynôme au deuxième et au troisième degré.
1 modèle = np.polyfit (x, y, 1)Lorsque nous appuyons sur l'entrée, le Polyfit calcule le modèle de régression linéaire et le stockage sur le modèle de variable de droite.
Logique derrière la ligne d'ajustement
Nous pouvons donc voir que frapper la touche Entrée et nous avons sorti le modèle de régression linéaire. Alors maintenant, nous pensons que ce qui fonctionne réellement derrière cette méthode et comment ils correspondaient à la ligne.
La méthode qui fonctionne derrière la méthode polyfit est appelée Méthode du moins carré ordinaire. Certaines personnes ont appelé cela avec le nom court OLS. Il est couramment utilisé par les utilisateurs pour ajuster la ligne. La raison est qu'il est très facile à utiliser et donne également une précision supérieure à 90%.
Voyons comment OLS fonctionne:
Tout d'abord, nous devons connaître l'erreur. L'erreur calcule à travers la différence entre les données x et y.
Par exemple, Nous montons une ligne sur le modèle de régression qui ressemble ci-dessous:
Les points bleus sont les points de données et la ligne rouge que nous installons sur les points de données en utilisant la méthode Polyfit.
Supposons x = 24 et y = 58
Lorsque nous montons la ligne, la ligne calcule la valeur de y = 44.3. La différence entre la valeur réelle et calculée est l'erreur pour le point de données spécifique.
Ainsi, la méthode OLS (moindre le moins carré) calcule l'ajustement en utilisant les étapes ci-dessous:
1. Calcule l'erreur entre le modèle ajusté et les points de données.
2. Ensuite, nous stimulons chacune des erreurs de points de données.
3. Résumer toutes les erreurs de points de données carrés.
4. Enfin, identifiez la ligne où cette somme de l'erreur carré est minimale.
Ainsi, le polyfit utilise les méthodes ci-dessus pour s'adapter à la ligne.
Étape 5: Modèle
Nous avons fait notre pièce de codage d'apprentissage automatique. Maintenant, nous pouvons vérifier les valeurs de x et y qui sont stockées dans les variables du modèle. Pour vérifier la valeur x et y, nous devons imprimer le modèle comme indiqué ci-dessous:
Enfin, nous avons obtenu une équation de contour:
y = 1.75505212 * x - 1.27719099
En utilisant cette équation linéaire, nous pouvons obtenir la valeur de Y.
L'équation linéaire ci-dessus peut également être résolue en utilisant la méthode PLOY1D () comme ci-dessous:
prédire = np.poly1d (modèle)Nous avons obtenu le résultat 33.82385131766588.
Nous avons également obtenu le même résultat du calcul manuel:
y = 1.75505212 * 20 - 1.27719099
y = 33.82385131766588
Ainsi, les deux résultats ci-dessus montrent que notre modèle correspond correctement à la ligne.
Étape 6: Précision du modèle
Nous pouvons également vérifier la précision du modèle, soit il donne des résultats corrects ou non. La précision du modèle peut être calculée à partir du R-carré (R2). La valeur du r-carré (R2) est comprise entre 0 et 1. Le résultat proche de 1 montrera que la précision du modèle est élevée. Alors, vérifions la précision du modèle ci-dessus. Nous importerons une autre bibliothèque, Sklearn, comme indiqué ci-dessous:
de Sklearn.Les métriques importent R2_ScoreLe résultat montre qu'il est proche de 1, donc sa précision est élevée.
Étape 7: Tracer le modèle
Le traçage est la méthode pour voir la ligne ajustée du modèle sur les points de données visuellement. Il donne une image claire du modèle.
x_axis = plage (0, 60)Une explication rapide de la méthode de tracé ci-dessus est donnée ci-dessous:
Ligne 1: C'est la gamme que nous voulons afficher sur l'intrigue. Dans notre code, nous utilisons la valeur de plage de 0 à 60.
Ligne 2: Toutes les valeurs de plage de 0 à 60 seront calculées.
Ligne 3: Nous passons ces ensembles de données d'origine X et Y dans la méthode de dispersion.
Ligne 4: Nous tracons enfin notre graphique, et la ligne verte est la ligne d'ajustement comme indiqué dans le graphique ci-dessus.
Conclusion
Dans cet article, nous avons appris le modèle de régression linéaire qui est le début du parcours de l'apprentissage automatique. Il existe un certain nombre de modèles de régression qui sont expliqués dans un autre article. Ici, nous avons un ensemble de données propres parce que c'était un mannequin, mais dans des projets réels, vous pourriez obtenir un ensemble de données sale et vous devez faire de l'ingénierie en fonction de celle-ci pour nettoyer l'ensemble de données à utiliser dans le modèle. Si vous ne comprenez pas complètement ce tutoriel, même cela vous aide à apprendre facilement un autre modèle de régression.
Le modèle de régression de ligne est l'algorithme le plus courant utilisé par la science des données. Vous devez avoir des idées sur le modèle de régression si vous voulez avoir votre carrière dans ce domaine. Alors, restez en contact et bientôt nous reviendrons avec un nouvel article de science des données.
Le code de cet article est disponible sur le lien GitHub:
https: // github.com / shekharpandey89 / linéaire-régression-en-python-using numpy-polyfit