Qu'est-ce que le traitement des données?
Le prétraitement des données est une étape critique de l'apprentissage automatique qui améliore la qualité des données pour encourager l'extraction de précieuses informations des données. La préparation des données dans l'apprentissage automatique est le processus de préparation des données brutes (les nettoyage et l'organisation) à utiliser et à former des modèles d'apprentissage automatique. Le prétraitement des données dans l'apprentissage automatique est, pour le dire simplement, une approche d'exploration de données qui convertit les données brutes en un format lisible et intelligible.
Pourquoi avons-nous besoin de prétraitement des données?
Les données du monde réel manquent souvent de valeurs ou de tendances d'attribut particulières et est souvent incohérente, erronée (contient des erreurs ou des valeurs aberrantes) et incomplète. La préparation des données entre en jeu dans cette situation car elle aide à nettoyer, formater et organiser les données brutes, ce qui le prépare à l'emploi par des modèles d'apprentissage automatique.
Le prétraitement des données traite les éléments suivants:
Normes pour l'API Scikit-Learn
Il existe plusieurs spécifications pour le type de données que le Sklearn traitera.
Implémentation de prétraitement Sklearn
Importation des bibliothèques et des données
# Importation des bibliothèques et des coursChargement des 5 premières lignes des données
df.diriger()Sortir
Longueur sépale (cm) | Sepal Largeur (CM) | Longueur du pétale (CM) | Largeur des pétales (CM) | |
---|---|---|---|---|
0 | 5.1 | 3.5 | 1.4 | 0.2 |
1 | 4.9 | 3.0 | 1.4 | 0.2 |
2 | 4.7 | 3.2 | 1.3 | 0.2 |
3 | 4.6 | 3.1 | 1.5 | 0.2 |
4 | 5.0 | 3.6 | 1.4 | 0.2 |
Obtenir des informations sur les types et les valeurs nulles
df.Info()Sortir
RangeIndex: 150 entrées, 0 à 149Remplissant les valeurs manquantes du DataFrame à l'aide de Sklearn:
Imputer = SimpleImputer (Strategy = 'Mean')Nous pouvons itérer toutes les colonnes pour effectuer cette tâche sur toutes les colonnes.
Mise à l'échelle des données à l'aide de SCALER SCALER
scalemer = standardscaler ()Sortir
Array ([[- 0.90068117, 1.01900435, -1.34022653, -1.3154443],Un encodage chaud
encodeur = onehotencoder (handle_unknown = 'ignore')Sortir
[array (['a', 'b'], dtype = objet), array ([1, 2, 3], dType = objet)]]Conclusion
Nous avons discuté du prétraitement et de sa mise en œuvre dans la bibliothèque Sklearn Python dans cet article. Afin de faciliter l'extraction des informations utiles des données, le prétraitement des données est une étape cruciale de l'apprentissage automatique. Il augmente la qualité des données. Ensuite, nous avons discuté de la mise en œuvre de Sklearn. Nous avons d'abord récupéré des informations sur les données, y compris les valeurs et les données manquants, puis avons rempli les valeurs manquantes. Nous avons également travaillé sur la mise à l'échelle des données et un codage chaud.