Pandas Qcut

Sarah Roux

«Le« Python »contient de nombreuses bibliothèques, et lorsque nous voulons analyser ou manipuler des données alors, nous utilisons ces bibliothèques« Python », et les« pandas »en sont également la bibliothèque. La bibliothèque «Pandas» est utilisée dans le domaine des sciences de données, et elle est également utilisée dans les activités d'apprentissage automatique. Le dataframe des «pandas» nous aide à enregistrer les données. Dans «Pandas», lorsque nous voulons le binning de données, nous utilisons la méthode «qcut ()». La méthode «Qcut ()» est utilisée pour convertir les caractéristiques continues en catégoriques. Nous pouvons ajouter différents types de paramètres dans cette méthode «qcut ()» pour obtenir différents types de résultats. Ce tutoriel concerne la méthode «qcut ()», et nous expliquerons en détail la méthode «qcut ()» ici. Nous vous expliquerons comment nous faisons le binning de données avec l'aide de la fonction «Qcut ()» dans «Pandas» dans ce tutoriel."

Exemple # 01

Nous appliquerons la méthode «qcut ()» dans ces codes, et nous ferons ces codes dans l'application «Spyder». Lorsque nous devons travailler avec les «pandas», nous ne pouvons accéder à ses fonctions que lorsque nous importons la bibliothèque «Pandas» dans nos codes. Tout d'abord, nous mettons «l'importation», puis nous écrivons des «pandas comme PD». Maintenant, nous devons appliquer la méthode «qcut ()», donc pour cela, nous créons le dataframe ici. Nous construisons "Random_df" contenant "R_ID, R_NAME et R_AGE" comme ses colonnes, et aussi dans "R_ID", nous plaçons "R_17, R_21, R_24, R_29, R_31, R_34, R_44, R_46, R_50, R_51, R_55, R_61, R_73 et R_81 ". Ensuite, nous ajoutons «Theodore, Teddy, Noah, Leo, Ivy, Henry, Freddie, Evelyn, Ava, Willow, Theo, Oscar, Jacob et Harper» dans la colonne «R_Name». Après cela, nous insérons «21, 33, 12, 43, 22, 7, 21, 51, 72, 19, 10, 9, 37 et 40” dans la colonne «R_age». Maintenant, nous utilisons le «print ()», qui contient «random_df», et il aidera à rendre le «random_df». Nous venons de créer le dataframe et n'appliquez pas encore la méthode «qcut ()».

L'icône «Run» nous aide à exécuter les codes. Lorsque nous appuyons sur cette icône «Exécuter», le résultat de ce code s'affiche sur le terminal de l'application «Spyder». Le DataFarme «Random_DF» est illustré à la suite du code que nous avons écrit dans cet exemple. Maintenant, nous appliquerons la méthode «qcut ()» et montrerons également son résultat.

Nous bacons les données ici. Nous sommes en train de mettre la colonne «R_age» et de placer le «PD.méthode qcut () ”, qui est la méthode de« pandas »qui aide à la binning de données. Dans cette méthode, nous insérons le nom du DataFrame et également le nom de la colonne sur lequel nous voulons appliquer cette méthode «qcut ()». Nous avons également défini la valeur de «Q» sur «5» et il est utilisé pour couper les données de la colonne «R_age» en cinq quantiles égaux. Nous ajoutons la méthode «qcut ()» dans le «print ()», donc il affichera également les données de binning sur le terminal.

Ici, les données après le binning sont affichées, et elle coupe le «R_age» en cinq quantiles. Il affiche également les catégories dans lesquelles les données de la colonne «R_age» sont regroupées. La série catégorique représente les bacs «r_age».

Nous pouvons également ajuster l'étiquette de ces bacs. Nous ajoutons ces étiquettes de bac pour les rendre faciles à interpréter. Nous ajoutons une colonne "r_age_qcut" au "random_df" dans lequel nous ajoutons les étiquettes de ces bacs. Nous utilisons à nouveau le «PD.méthode qcut () ”pour les étiqueter. Nous ajoutons les étiquettes qui sont «petites, pas si peu, médiocres, élevées et les plus élevées». Ensuite, nous mettons à nouveau "random_df" dans "print ()".

Tous les bacs sont étiquetés et présentés dans ce résultat. La colonne «R_age_qcut» s'affiche dans ce dataframe dans lequel les bacs étiquetés sont affichés.

Exemple # 02

Pour créer le DataFrame, nous ajoutons d'abord des «notes», qui sont «3, 6, 8, 7, 2, 5, 1, 9, 4, 7 et 8». Ensuite, nous ajoutons des noms d'étudiants dans des «étudiants», qui sont «Peter, Bromley, James, David, Alliés, John, James, Samuel, William, Howard et Alexander». Ensuite, nous générons le «grades_df» où nous avons ajouté le «PD.Méthode DataFrame () », et dans cette méthode, nous mettons« std_name », qui apparaîtra comme le nom de la colonne, et attribuons les valeurs des« étudiants »à cela. Ensuite, nous définissons les «Students_grades» comme nom de colonne du DataFrame et nous attribuons également des «notes», que nous avons créées ci-dessus. Après cela, nous avons le «print ()» dans lequel nous ajoutons «grades_df» pour l'impression.

Le dataframe contenant deux colonnes s'affiche dans le résultat de ce code. Maintenant, nous appliquerons la méthode «Qcut ()» à la colonne «Students_grades» pour mettre en place les données des valeurs de cette colonne.

Nous ajoutons une nouvelle colonne «grade» ici dans laquelle nous avons appliqué «PD.qcut () "à la colonne" Students_grades ", et nous avons également utilisé" 4 "pour la valeur du" Q ", donc il coupera les données en quatre quantiles égaux. Après cela, nous spécifions ces quantiles ici en plaçant des valeurs dans «Q», qui sont «0, .4, .8, et 1 ”. Ensuite, nous affichons également ceci. Maintenant, nous étiquetons ces données baces, et les étiquettes que nous ajoutons ici sont «D, C, A et B» et sont également stockés dans la colonne «Grade».

Ici, les données après le binning sont affichées ici dans la colonne «Grade», et elle coupe les données de la colonne «Students_grades» en quatre quantiles égaux.

Le dataframe que nous obtenons après avoir appliqué la méthode «qcut ()» et spécifiant les quantiles est affiché dans ce résultat.

Maintenant, après avoir ajouté les étiquettes à ces bacs, sont également rendus dans ce résultat dans la colonne «Grade», et vous pouvez voir qu'il attribue les étiquettes en fonction des valeurs du bac.

Exemple # 03

Nous pouvons également appliquer la méthode «qcut ()» aux données du fichier CSV. Pour cela, nous avons d'abord lu les données du fichier CSV à l'aide de la méthode "read_csv ()". Nous lisons les données du «Office2.Fichier CSV ", puis les données de ce fichier sont placées dans" Office_DF ". Cette méthode convertira les données du fichier "Office2" en DataFrame et les enregistrera dans "Office_DF". Ensuite, nous montrons également ces données en mettant le «Office_DF» dans le «print ()». Après cela, nous ajoutons une nouvelle colonne appelée «Units_qcut», à laquelle nous appliquons la fonction «PD.qcut () ”à la colonne" Unités ".

De plus, nous définissons la valeur de la variable «Q» à «5», qui divisera les données en cinq quantiles égaux. Les données, après coupure en 5 quantiles égaux, sont stockées dans la colonne "Units_qcut", et cette colonne est également ajoutée à "Office_DF", et le "Office_DF" rendu ici à nouveau en utilisant "print ()". Nous étiquetons désormais ces données baces, ajoutant les étiquettes dans la méthode «Qcut ()», qui sont «l'unité 1, l'unité 2, l'unité 3, l'unité 4 et l'unité 5» et les stockant également dans la colonne «Étiquettes». Nous rendons également ce dataframe dans lequel la colonne «Labels» est ajoutée.

Les données que nous obtenons après avoir lu le «Office2.Le fichier CSV »est rendu ici sous la forme de DataFrame. Ensuite, la colonne «Units_qcut» est ajoutée, dans laquelle les valeurs baces de la colonne «Unités» sont affichées. Après cela, la colonne «Étiquettes» est également ajoutée, qui attribue les étiquettes à ces valeurs baces. Tout cela se fait en utilisant la méthode "qcut ()" dans "Pandas".

Conclusion

Nous avons expliqué en détail la méthode «qcut ()» dans ce tutoriel qui aide à mettre les données dans les «pandas». Nous avons discuté que les données sont regroupées en fonction de la valeur quantile «Q» que nous avons ajoutée dans la méthode «qcut ()», et nous avons également ajusté les étiquettes à ces données baclées. Nous avons exploré la méthode «qcut ()» et avons appliqué cette méthode aux colonnes du dataframe, et nous avons également appliqué cette méthode «qcut ()» aux données du fichier CSV après avoir lu les fichiers CSV. Nous avons présenté le résultat de tous les codes de ce tutoriel pour expliquer et montrer clairement le résultat de la méthode «qcut ()».

Windows OS

Qu'est-ce que Windows Package Manager

Window Package Manager ou Winget est un outil puissant pour installer et gérer les packages logiciel...

Mohamed Benoit

Python

Pandas read_csv multiprocessement

Pour améliorer la vitesse de chargement des données, y compris ses avantages et ses limites le «PD.L...

Nathan Blanc

Windows OS

Quelle est la différence entre Windows Top 10 Home et Pro

La version «Pro» est destinée aux utilisateurs professionnels et a plus d'outils administratifs, tan...

Julien Dumas