Matrice de confusion dans Sklearn Linuxhint

Matrice de confusion dans Sklearn Linuxhint
«Une bibliothèque d'apprentissage automatique gratuite construite sur Python s'appelle Scikit-Learn. Il comprend plusieurs techniques de classifications, de régression et de clustering que nous pouvons utiliser pour faire des prédictions utiles en utilisant nos données. Une matrice de confusion est une statistique qui détermine l'exactitude et la précision d'un modèle. Il peut être utilisé pour résoudre les problèmes de catégorisation qui sont binaires ou multi-classes. Cet article traite de la matrice de confusion et de sa mise en œuvre dans Sklearn."

Qu'est-ce qu'une matrice de confusion?

La précision et l'exactitude du modèle sont mesurées à l'aide de la matrice de confusion. Il peut être appliqué aux problèmes de classification binaire ou multiple. De nombreuses mesures sont mesurées en utilisant les mesures de la matrice de confusion, même si ce n'est pas une mesure directe des performances. Une matrice de confusion est une matrice multidimensionnelle où les valeurs prévues sont représentées dans les lignes et les valeurs réelles dans les colonnes. La variable cible dans un problème de classification binaire aura deux valeurs, 1 ou 0, appelées valeurs réelles Vrai ou FAUX, respectivement. Les prédictions du modèle sont appelées valeurs attendues.

Source: Exploration.IA

True Positives (TP)

Les vrais positifs sont le nombre de cas dans lesquels la valeur réelle d'un échantillon de données correspond à la valeur prévue.

Les vrais négatifs (TN)

True Négatif est une statistique qui compte le nombre de cas dans lesquels la valeur réelle d'un échantillon de données est nul, et la valeur prévue est également nulle.

Faux positifs (FP)

Les faux positifs se réfèrent au nombre d'occurrences dans lesquelles la valeur réelle d'un échantillon de données est de 0, mais la valeur prévue est 1.

Faux négatifs (FN)

Les faux négatifs sont une statistique qui compte le nombre d'occurrences dans lesquelles la valeur réelle d'un échantillon de données est de 1, mais la valeur projetée est 0.

Les performances du modèle seront favorables, avec des valeurs plus élevées de TP et TN et des valeurs plus faibles de FP et FN, sur la base de la signification de la terminologie précédente. Le modèle doit être formé pour maximiser TP et TN tout en minimisant les valeurs FP et FN. Si l'un ou l'autre, lequel de FP et FN doit être minimisé dépend des exigences du problème de catégorisation. Garder les faux négatifs au minimum sera crucial dans le domaine médical.

Par exemple, supposons que le défi de classification soit de déterminer si le patient a ou non une maladie significative telle que le cancer ou le VIH. Prenez, par exemple, si le patient a un cancer, qui est représenté par 1, et si le patient n'a pas de cancer, qui est représenté par 0. Dans ce scénario, la réduction des faux positifs sur les faux négatifs est généralement préférable.

C'est-à-dire si un patient a un cancer (1) et que le modèle prédit un (0) négatif - faux négatifs - le patient et le diagnostic pourraient être compromis. En conséquence, FN doit diminuer autant que possible. D'un autre côté, si le patient n'a pas de cancer (0) mais que le modèle prédit qu'il a eu un cancer (1) - de faux positifs - cela aura moins de ramifications car, dans la plupart des cas, des tests ultérieurs seront entrepris pour des maladies cruciales Avant que la maladie ne soit confirmée comme positive. En conséquence, les faux positifs sont préférables aux faux négatifs dans ce problème.

Avantages de la matrice de confusion

  • Il montre comment n'importe quel modèle de classification peut être perplexe lors de la prédiction.
  • La matrice de confusion indique les types d'erreurs qui sont commises par votre classificateur en plus des erreurs qui sont produites.
  • En utilisant cette ventilation, vous pouvez contourner les problèmes en s'appuyant entièrement sur la précision de la classification.
  • Chaque colonne de la matrice de confusion affiche les instances de cette classe projetée.
  • Chaque rangée de la matrice de confusion cartographie à une instance de classe réelle.
  • Il révèle non seulement les erreurs commises par un classificateur mais aussi les erreurs que les humains commettent

Comment calculer les matrices de confusion?

Vous trouverez ci-dessous les étapes pour calculer les matrices de confusion:

  • Vous devriez avoir un ensemble de données de test ou de validation avec des valeurs de résultats attendus.
  • Ensuite, prédire chaque ligne de votre ensemble de données de test.
  • Voici les résultats et les prédictions attendues:
  1. Le nombre de suppositions correctes pour chaque classe.
  2. Le nombre total de prédictions inexactes pour chaque classe est triée par classe projetée.

Mise en œuvre de la matrice de confusion dans Sklearn

# Importation des étiquettes requises
de Sklearn.Les métriques importent confusion_matrix
# Les vraies étiquettes de l'ensemble de données donné
y_true = [1, 2, 0, 2, 1, 0]
# les étiquettes prévues de l'ensemble de données donné
y_pred = [1, 0, 1, 2, 0, 1]
# Obtenez la matrice de confusion de l'ensemble de données
confusion_matrix (y_true, y_pred)

Sortir

Array ([[0, 2, 0],
[1, 1, 0],
[1, 0, 1]])

Conclusion

Nous avons appris la matrice de confusion et sa mise en œuvre dans Sklearn. Sklearn est une bibliothèque ML populaire basée sur Python qui met en œuvre diverses mesures et algorithmes. La matrice de confusion détermine les mesures de précision des problèmes de classification basés sur de vrais positifs ou de vrais négatifs ou de faux positifs ou de faux négatifs.