Python un codas codage chaud

Python un codas codage chaud
Cet article vous apprendra à effectuer un codage chaud en python à l'aide de pandas et de scikit Learn.

Le codage chaud fait référence à la conversion de données catégorielles en modèles que les algorithmes d'apprentissage automatique peuvent utiliser. Dans la plupart des cas, cela implique de convertir chaque valeur de catégorie en une valeur binaire de 1 ou 0.

L'image ci-dessous illustre un codage à un hot.

Source: Kaggle

Vous pouvez explorer un codage à un hot dans la ressource ci-dessous:

https: // en.Wikipédia.org / wiki / un hot

Échantillons de données

Commençons par créer des exemples de données. Tout d'abord, utilisez l'exemple de code comme indiqué ci-dessous:

Importer des pandas en tant que PD
df = pd.Trame de données(
"Catégories": ['Cat1', 'Cat2', 'Cat3', 'Cat2', 'Cat1', 'Cat1', 'Cat3'],
"Valeurs": [10,20,20,40,24,34,23]
)
df

Importez un OneHotencoder de Sci-Kit-Learn pour effectuer un codage à un hot pour effectuer un codage à un hot comme indiqué:

de Sklearn.Importation de prétraitement
# Instanciation
e = onehotencoder (handle_unknown = 'ignore')
# Encoder
e_df = pd.Dataframe (e.fit_transform (df [['catégories']]).toArray ())
E_DF

Dans l'exemple ci-dessus, nous commençons par importer le OneHotencoder de Sci-Kit-Learn. Nous créons ensuite une instance d'encodeur et passons le paramètre Handle_unknown pour ignorer.

Enfin, nous créons un nouveau DataFrame à partir des données codées. Le code ci-dessus doit renvoyer le nouveau DataFrame comme indiqué:

Vous pouvez également fusionner le Frame de données codé à la Frame de Data d'origine à l'aide de la méthode de jointure comme:

df = df.rejoindre (e_df)
df

Le code ci-dessus doit retourner:

Conclusion

Cet article couvre le minimum de l'exécution d'un codage de base à un hot d'un pandas dataframe à l'aide de la bibliothèque Sci-Kit-Learn.