Pandas get_dummies

Pandas get_dummies
La méthode pour obtenir les variables factices en pandas en utilisant la méthode get_dummies () est démontrée dans cet article. Nous discuterons de l'objectif principal de la fonction. Nous passerons également en revue le PD.Syntaxe de Get_Dummies et fournissez les exemples étape par étape. Les variables muettes sont des variables numériques qui codent pour les données catégorielles. Les deux valeurs viables pour les variables muettes sont 0 et 1. Dans les variables factices, «1» indique qu'une catégorie est présente et «0» représente la catégorie qui n'existe pas. Ces variables 0/1 sont également connues sous le nom de variables fictives. Cependant, nous les qualifions généralement de variables «manquées». Ceci est également connu comme le codage «un hot» de catégorielle dans l'apprentissage automatique.

Comment utiliser la méthode get_dummies () dans Pandas

À l'aide d'une série Pandas, d'une colonne ou de plusieurs colonnes Pandas Dataframe, le PD.La fonction get_dummies () peut générer les variables factices. Certains outils de la science des données ne peuvent être utilisés qu'avec les données d'entrée numériques. Les nombreuses techniques d'apprentissage automatique, telles que la régression logistique et linéaire, n'acceptent que les données d'entrée numériques. Ils donnent une erreur si vous essayez d'utiliser les données de catégorie basées sur des chaînes. Cela signifie qu'avant d'utiliser de tels outils, vous devez coder les données de votre catégorie comme variables factices (numérique). Regardons le PD.Syntaxe Get_Dummies pour comprendre comment elle fonctionne.

Syntaxe: pandas.get_dummies (data, prefix = non, prefix_sep = '_', dummy_na = false, colonnes = aucun, clairsemé = false, drop_first = false, dtype = non

Où;

données: Dont les données sont modifiées ou manipulées.

préfixe: Chaîne pour ajouter les noms de colonne d'un dataframe. Lorsque vous utilisez les mannequins Get sur un dataframe, passez une liste avec une taille qui équivaut au nombre total des colonnes de dataframe. «Aucun» est la valeur par défaut.

prefix_sep: Utilisez un séparateur ou un délimiteur lorsque vous ajoutez un préfixe. C'est "par défaut.

mannequin: Une nouvelle colonne est ajoutée pour indiquer les valeurs NAN. Il est faux par défaut si les fausses valeurs manquantes sont ignorées.

Colonnes: Les noms de colonnes de données de données qui doivent être codés. Les colonnes ayant une catégorie ou un type de données d'objet sont converties en «aucune». La valeur par défaut est «aucune».

clairsemé: Il spécifie si un SparsEarray (Vrai) ou un tableau Numpy standard doit soutenir les colonnes codées factices (FALSE). False est la valeur par défaut.

drop_first: D'après les k niveaux catégoriques pour obtenir des mannequins K-1, supprimez le premier niveau.

dtype: Type de données des nouvelles colonnes. Il ne peut y avoir qu'un seul type de données. Le «NP.uint8 ”, est la valeur par défaut.

Maintenant, utilisons la fonction get_dummies () dans les exemples suivants:

Exemple 1: Utilisation de la fonction get_dummies () dans la série Pandas

Commençons par utiliser la fonction get_dummies () dans une série pandas. Nous créons une série en utilisant le PD.Série () Fonction.

Après avoir importé la bibliothèque Pandas, nous créons une liste de «noms» avec les éléments «Mark», «Kane», «Larry», «Mark», None, «Larry», «Kane», None et «Mark». Pour créer une série, la liste est ensuite passé à l'intérieur du PD.Série () Fonction. La fonction print () est utilisée pour illustrer la série «S». Il existe 3 catégories de données ou de valeurs de chaîne dans la série (Mark, Kane et Larry). La série contient également des valeurs manquantes. Maintenant, la fonction Pandas Get Dummies est utilisée.

Le PD.get_dummies () crée un dataframe avec quatre nouvelles variables comme sortie: «Kane», «Larry» et «Mark». La nouvelle variable Kane a une valeur de 1 dans laquelle la valeur de la série d'origine était «Kane», tandis que les valeurs de l'autre variable sont «0.«Lorsque la valeur de la série originale était« Larry », la nouvelle variable Larry a désormais une valeur de« 1 »tandis que les valeurs des autres variables sont toutes« 0 », etc. Une seule variable qui contient trois valeurs est recodée en trois variables contenant 0 ou 1 valeurs en utilisant la méthode get_dummies (). Bien qu'il soit présenté différemment (sous forme de valeurs 0 et 1), la nouvelle structure comprend les mêmes informations / données.

Exemple 2: Utilisation de la fonction get_dummies () dans Pandas DataFrame

Ensuite, nous appliquons le PD.Fonction get_dummies () dans la colonne DataFrame. Créons d'abord un pandas dataframe en utilisant le PD.Fonction DataFrame () après l'importation des modules Pandas et Numpy I le même que nous l'avons fait dans le premier exemple.

Trois colonnes dans la dataframe fournie, incluent les noms «EMP», «salaire» et «pays.«Dans la chronique« EMP », nous stockons les noms des employés (« Jay »,« Anna »,« Sam »,« Eddy »,« Jhon »,« Maria »,« Sara »,« Kim »,« Jack » , «Will», «Jerry»). Dans le salaire de la colonne, les salaires des employés sont stockés sous forme de valeurs numériques (40000, 53000, 44000, 39000, 47000, 34000, 55000, 51000, 42000, 39000, 38000). La colonne «Country» contient les noms des pays d'où chaque employé appartient à («USA», «France», «USA», «USA», «Russie», «Russie», «Russie», «France», « France »,« USA », NP.nan). Nous pouvons convertir la colonne country, qui est une colonne catégorique, en une variable fictive 0 ou 1. Nous appliquons la fonction Pandas get_dummies () à la colonne du pays dans le DF DataFrame.

Tout d'abord, on peut remarquer qu'une nouvelle dataframe est créée à la suite de l'opération. La colonne de pays précédente n'existe plus dans ce nouveau dataframe. Il y a maintenant 4 nouvelles colonnes à sa place: country_france, country_russia et country_usa. Le nom de l'ancienne variable (pays) est préfixé aux noms des nouvelles variables par la fonction get_dummies () par défaut. La nouvelle colonne Country_France a une valeur de 1 où la valeur de la colonne était «France» dans la colonne d'origine et 0 pour les autres variables. La colonne New Country_Russia a une valeur de 1, alors qu'elle a une valeur 0 pour les autres variables où la valeur de la colonne était «Russie» dans la colonne d'origine. La nouvelle colonne Country_USA a une valeur de 1 où la valeur de la colonne d'origine était «USA», et les autres variables ont des valeurs de 0. Pandas get_dummies () a maintenant produit une nouvelle variable 0/1 pour chaque niveau de la colonne classifiée précédente, «Country."

Exemple 3: Utilisation de la fonction get_dummies () et son paramètre Drop_First dans une colonne

Nous utilisons maintenant la méthode get_dummies () sur une colonne catégorique du dataframe, mais le premier niveau de la colonne catégorielle est supprimé. Nous définissons le paramètre Drop_First = True pour ce faire. Créons d'abord un dataframe afin que nous puissions appliquer la fonction get_dummies () à sa colonne.

Comme on peut l'observer, la colonne de cours est catégorique et a des valeurs manquantes. Maintenant, nous convertissons la colonne catégorielle «cours» en variables muettes des valeurs 0/1.

Observez qu'il n'y a plus que 2 variables factices dans la sortie: cours_python et cours_react. La variable factice de la catégorie «Java» n'est pas présente. Lorsque le drop_first est défini sur true, le get_dummies () n'inclura pas la colonne factice pour la première catégorie de la variable. Il ne faut que K - 1 variables factice pour transmettre les mêmes informations lorsqu'une variable catégorique a k catégories mutuellement exclusives. Nous pouvons également inclure une variable factice pour les valeurs manquantes en spécifiant le paramètre Dummy_na = True.

Vous pouvez remarquer qu'une variable fictive nommée Course_nan est également ajoutée par la fonction get_dummies () dans la sortie. Les autres paramètres de la fonction peuvent également être utilisés pour modifier la sortie DataFrame.

Conclusion

Nous avons couvert comment obtenir les variables factices en pandas dans ce tutoriel. Nous avons vu que le get_dummies () peut être utilisé pour obtenir les variables factices. Nous avons vu la syntaxe de la fonction et ses paramètres pour comprendre sa fonctionnalité. Nous avons mis en œuvre quelques exemples pour vous apprendre à utiliser la fonction get_dummies () sur Pandas DataFrame et série pour obtenir les variables factices. De plus, nous avons vu certains paramètres de la fonction get_dummy () pour modifier les résultats ou les sorties de données.