Pandas factorisé

Pandas factorisé

«Pandas» est la bibliothèque Python la plus puissante pour travailler avec DataFrames. Il sert une diversité d'objectifs. L'un d'eux est la fonction Pandas «Factorize ()». Nous devons souvent convertir une variable fournie en nombres, surtout avant de le passer à des algorithmes qui n'acceptent que les entrées numériques. La méthode Pandas «Factorize ()» vous permet de convertir facilement les chaînes en nombres. Il identifie les valeurs distinctes du tableau et les renvoie comme un nombre numérique. Dans Pandas, la fonction «factoriser ()» transforme un objet en une variable catégorique. Ceci est utile pour identifier les valeurs uniques."

La syntaxe pour utiliser la méthode Pandas «Factorize ()» est fournie ci-dessous:

La syntaxe nous montre quatre paramètres de cette fonction. Décrivons brièvement ces paramètres.

Le paramètre "valeurs" implique un tableau unidimensionnel, comme une liste. Le "trier" Le paramètre est utilisé pour conserver l'association, trier des valeurs distinctes et échanger des codes. Il accepte une valeur bool. Il est défini sur false par défaut. Le "Na_sentinel" fait référence à la valeur qui devrait être marquée comme «non trouvée». Si aucun, le NAN ne sera pas éliminé du caractère distinctif des données. Le "Size_hint" Donne un indice pour le sizer de hachage.

Pour utiliser la fonction «factoriser ()», le seul argument obligatoire est les «valeurs». Toutes les autres fonctionnalités sont facultatives.

Deux objets, "codes" et "unique", sont renvoyés par la fonction «factoriser ()». Le terme «codes» concerne un ndarray numérique qui sert d'indexeur à «uniques», tandis que les valeurs uniques valides sont appelées «uniques».

Dans son article, nous allons explorer le concept de fabrication de facteurs dans la programmation Python en utilisant la méthode Pandas «Factorize ()» avec certains de ses paramètres principalement exercés.

Exemple n ° 1: Utilisation de la méthode Pandas «Factorize ()»

La mise en œuvre pratique du programme Python pour exécuter la méthode Pandas «Factorize ()» sera réalisée dans cette illustration.

L'outil que nous utilisons ici pour la compilation des codes Python est «Spyder». Cet outil répond le mieux aux exigences de notre système. Nous avons lancé l'outil. L'interface utilisateur est apparue et nous commençons à écrire notre script Python dessus. La première chose que nous avons faite sur le fichier Python a été de charger la bibliothèque, dont nous devons pouvoir accéder à ses méthodes. Pour les exigences de notre cas, nous devons charger la bibliothèque de Python «Pandas». Nous avons écrit le script de cette bibliothèque comme «Importer des pandas comme PD». L'alias «PD» fonctionnera pour nous procurer les méthodes «pandas» en tapant l'abréviation au lieu de la forme complète.

La boîte à outils Pandas est chargée dans le fichier Python; Maintenant, nous devons passer à l'étape suivante. Dans la ligne suivante du script, nous avons généré une liste de chaînes. Nous avons créé une variable «MyList» pour y stocker le contenu de cette liste afin que nous puissions y accéder plus tard. Les chaînes que nous avons stockées dans cette liste sont «Y», «Y», «X», «Z», «Y», «X», «Z» et «Z». Vous pouvez voir que cette liste a des valeurs récurrentes. Au total, il contient huit valeurs. Pour afficher cette liste de chaînes à l'écran, nous avons utilisé la fonction «print ()» de Python. Nous avons d'abord fourni le texte «Ceci est notre liste de chaînes:» à la méthode «print ()» à afficher, et la prochaine fonction «print ()» montrait le contenu «MyList» sur la console Spyder.

Pour compiler le script que nous avons écrit ci-dessus, appuyez sur le bouton "Exécuter le fichier". Vous verrez une liste présentée sur le terminal avec huit valeurs.

Maintenant, pour trouver la factorisation de cette liste, nous avons une méthode Pandas «PD.factoriser () ». Cette méthode nous renverra deux tableaux. Le premier sera des codes, tandis que le second présentera les valeurs uniques de la liste.

Nous avons créé deux variables «COD» et «Uniq». La «morue» stockera les codes générés par le «PD.Facacterze () »Méthode pour la liste fournie. Le «Uniq» conservera les valeurs uniques dans la liste. Nous avons invoqué le «PD.Facactiser () »Méthode et passé la liste que nous avons créée ci-dessus,« MyList »comme paramètre à cette fonction. Cette fonction générera des codes pour chaque valeur de la liste et le stockera dans la variable «COD». Et il extrait les valeurs uniques de la liste et les placera dans la variable «Uniq». Ensuite, nous avons appelé la méthode «print ()» pour afficher d'abord le texte «Les codes de la liste fournis sont:», puis le contenu de la variable «COD». La prochaine fonction «print ()» est utilisée pour afficher le texte «Les uniques de la liste fournie sont:», puis les données de la variable «Uniq».

La sortie générée sur le terminal nous montre deux tableaux. Le premier tableau a des valeurs comme «0», «0», «1», «2», «0», «1», «2» et «2». La méthode «factoriser ()» a converti les chaînes en valeurs numériques. Le «Y» est remplacé par «0», «x» est remplacé par «1» et «z» est remplacé par «2». Le deuxième tableau qu'il a renvoyé est le tableau de valeurs uniques, qui sont «y», «x» et «z».

Exemple # 2: Utilisation de la méthode Pandas «Factorize ()» pour trier les valeurs

Cette démonstration est pour apprendre la technique de tri des valeurs dans les tableaux résultants générés à partir du «PD.Facacterze () »Méthode.

Nous avons utilisé la liste créée ci-dessus pour expliquer la technique de tri et de mélange de cette fonction. Ici, nous avons créé deux variables, «shuffle» et «tri». La variable «Shuffle» stockera les codes mélangés de la variable «MyList», tandis que la variable «tri» aura les valeurs uniques triées de la liste fournie. Nous avons attribué à ces variables la sortie de l'invoquer le «PD.Facacterze () »Méthode.

Le «PD.La méthode factorize () ”est appelée avec deux paramètres. Le premier paramètre est «Valeurs» qui est le nom de la liste «MyList» et le deuxième paramètre est «Trier». Le paramètre «Trier» trie les valeurs uniques, puis mélanger les codes en conséquence. Par défaut, il est défini sur «False», nous avons changé les paramètres et le définissons sur «True» pour effectuer le tri. Nous avons utilisé deux fonctions «print ()». Le premier à afficher le texte «Les codes mélangés pour la liste fournis sont:», puis les données de la variable «Shuffle». L'autre méthode «print ()» doit montrer le texte «Les uniques triées pour la liste fournie sont:» Suivi du contenu de la variable «de tri».

Lorsque le résultat est présenté sur le terminal, nous obtenons de nouveaux tableaux. Le premier tableau a la liste des valeurs mélangées numériques comme «1», «1», «0», «2», «1», «0», «2» et «2». Pour votre commodité, nous avons également imprimé les codes non obsédés afin que vous puissiez facilement comprendre la différence. Le deuxième tableau a trié des valeurs uniques sous le nom de «X», «Y» et «Z». Les valeurs uniques de la liste sont désormais triées par ordre alphabétique. Vous pouvez le comparer avec le tableau non trié, qui a les uniques comme «Y», «X» et «Z».

Conclusion

Dans cet article, nous nous sommes concentrés sur l'apprentissage de la technique de factorisation des chaînes en chiffres. À cette fin, nous avons utilisé les pandas «PD.Facacterze () »Méthode. Cette approche est très utile lors du regroupement des données et de les traduire en valeurs numériques. Nous avons développé la procédure pour utiliser cette méthode et décrit ses différents paramètres qui peuvent être exercés en cas de besoin. Nous avons effectué la mise en œuvre pratique des scripts Python pour comprendre l'application de cette méthode. Nous avons rendu les exemples de codes ainsi que leur sortie dans ce tutoriel. Nous recommandons fortement l'exercice pratique de ces techniques en commençant par des programmes de base aux programmes complexes pour atteindre la meilleure compréhension des techniques de pandas.