La transformation des données statistiques en ensembles de données est un jeu d'enfant avec la fonction de coupe intégrée de Pandas. Seuls les éléments de type réseau unidimensionnel sont compatibles avec la méthode Cut (). Lorsque nous avons un tas de données numériques et que nous devons exécuter une évaluation statistique, la méthode Cut () est pratique.
Imaginons, pour l'illustration, que nous obtenons une gamme de valeurs de 5 à 15. Ensuite, nous divisons ces nombres en 2 catégories et les classons. Nous appelons ces collections comme des poubelles. En conséquence, nous séparons ces données en bacs 1 et 2, qui sont respectivement de 5 à 10 et 10 à 15. Ayant les deux bacs, nous pouvons évaluer quels nombres sont plus grands et lesquels sont petits. Par conséquent, 10 à 15 sont supérieurs à 5 à 10, et vice versa. Cela conduit aux termes «bas» et «hauts» qui se réfèrent aux valeurs inférieures et aux plus grandes, respectivement.
Cette approche est connue comme marquant les données avec la technique de Pandas Cut (). Utilisez la fonction Cut () si vous avez besoin de diviser les données en segments et entrez les nombres dans les bacs. Ladite méthode est également bénéfique pour convertir une valeur infinie en données catégorielles.
Pandas Cut () Méthode Syntaxe
Le tableau unidimensionnel qui doit être placé dans le bac est représenté par le «X" symbole. Pour la classification, "Poubelle»Définit les limites des bacs. Le "droite»Spécifie si la limite la plus à droite doit être conservée ou non; Le paramètre par défaut est vrai. Le "Étiquettes"Aide à représenter ainsi que la classification des bacs soit des hauts ou des bas. Il donne des instructions pour l'étiquetage sur les conteneurs de retour et devrait avoir la taille exacte comme celle des bacs résultants. Booléen ou les tableaux sont tous deux acceptables dans les étiquettes. Le "retBins»Déterminez si les bacs doivent être retournés ou non. Le terme "précision»Décrit le niveau de précision utilisé lors de la préservation et de la présentation des étiquettes pour les bacs. Le "inclure le plus bas»Détermine si l'intervalle initial est laissé complet ou non. Chaque fois que les limites des bacs ne sont pas distinctives, "doublure»Spécifie s'il faut lancer une valeur d'énergie ou supprimer un.
Exemple 1: segmenter les valeurs en bacs
Nous commençons la démonstration pratique de la fonction Pandas Cut () avec l'exemple de base et simple de mettre les valeurs d'un cadre de données dans les bacs en les segmentant.
La première chose que vous devez faire avant de commencer à travailler sur le code principal est d'importer les bibliothèques nécessaires à Python. Dans cette illustration, nous avons importé deux bibliothèques Python qui sont «panda» et «numpy».
La bibliothèque Pandas nous permet d'utiliser les fonctions Pandas, y compris la fonction Cut () qui est notre sujet de discussion aujourd'hui. Tandis que l'autre bibliothèque que nous avons importée est Numpy qui est parmi les outils Python les plus utilisés pour les calculs statistiques. Pour remplir l'objet DataFrame, nous utilisons le Numpy pour créer les entiers arbitraires.
Maintenant, nous commençons par le code principal qui peut être vu dans l'image précédente.
Ici, nous avons créé une variable comme «new_df» qui stocke un tableau de nombres générés aléatoirement. Le «PD.dataframe »est invoqué pour générer un dataframe. Il nécessite 2 paramètres: le titre de colonne «valeur» et le «NP.aléatoire.Fonction Randint. Le «NP.aléatoire.RANDINT ”génère des nombres aléatoires pour le DataFrame défini. Il faut trois paramètres - valeur minimale, valeur maximale et longueur / taille du tableau. Nous avons défini la valeur minimale comme 5 et la valeur max comme 50 et la longueur du tableau est définie à 10. Donc, il génère 10 nombres aléatoires allant de 5 à 50. Ensuite, nous avons utilisé l'expression «print ()» pour imprimer le dataframe «new_df».
Ici, vous pouvez voir un dataframe avec la colonne «valeurs» ayant 10 valeurs.
Maintenant, nous créons une autre colonne comme «Value_bins» dans le dataframe existant, i.e. new_df. Nous appelons ensuite le Pandas Cut (). Nous passons les paramètres à la méthode de coupe. Le «X» se voit attribuer le nom du dataframe / tableau que nous devons placer dans le bac. Dans notre exemple, c'est «new_df [valeurs]» où la «valeur» est le nom de la colonne sur laquelle la coupe () est appliquée. Le deuxième paramètre du paramètre de coupe que nous avons utilisé est le «bac» pour définir les bords du bac. Ici, nous voulons diviser les données en 4 bacs de (5, 20], (20, 30], (30, 40], (40, 50].
Dans la dernière déclaration d'impression, nous avons appelé la fonction «unique ()» qui génère un tableau de valeurs uniques.
L'image de sortie montre le dataframe avec le bac. Vous remarquerez peut-être que «20» est également ajouté au bac. C'est le résultat de l'inclusion par défaut du bord le plus à droite. Si nous n'en avons pas besoin, utilisez la méthode Cut () avec l'option droite = false.
Exemple 2: Étiquetage des bacs
Nous pouvons ajouter des étiquettes aux bacs avec la fonction Pandas Cut ().
À des fins d'illustration, nous avons créé un cadre de données avec la fonction Pandas DataFrame comme nous avons créé dans l'exemple précédent. Ce dataframe contient une colonne «numéro» qui stocke un tableau de taille 10 avec des valeurs générées aléatoires de 11 à 32. Ensuite, nous créons une autre colonne dans le même DataFrame et les nommez "Numbers_Labels". Nous invoquons la fonction Pandas Cut (). À l'intérieur de cette fonction, nous mentionnons le nom de la colonne de notre DataFrame pour appliquer la fonction Cut (). Comme nous devons couper et segmenter les données en 2 bacs, nous fournissons 2 limites du bac AS (11, 22], (22, 32].
La prochaine chose est de définir les étiquettes des bacs. Dans l'argument «Étiquettes», nous passons les deux expressions comme des «bas» et des «hauts».
Nous utilisons la même procédure qu'auparavant, mais en plus de diviser les résultats en bacs, nous étiquetons maintenant les bacs en hauts et en bas.
Les valeurs statistiques sont différenciées en bacs. Ensuite, nous pouvons observer les chiffres plus grands et qui sont plus petits. Dans l'invocation de la fonction Cut (), nous définissons le droit = faux parce que nous avons besoin de 10 pour être un élément de hauts.
L'image de sortie montre les bacs avec des étiquettes «Lows» et «Highs». Les petites valeurs sont étiquetées comme des bas et les valeurs plus grandes sont appelées élevées.
Conclusion
Cet article est basé sur la fonction Pandas Cut (). Il comprend l'introduction à la fonction Pandas Cut () ainsi que la nécessité d'utiliser cette méthode. Nous avons expliqué tous les détails nécessaires et vous familiariser avec les bases de la fonction Cut (). Nous avons élaboré chaque paramètre de cette fonction en termes faciles à comprendre. Nous avons effectué les exemples de code pratiques implémentés sur Spyder pour vous permettre de pratiquer cette méthode avec eux. De la même manière, vous pouvez pratiquer les autres paramètres de la fonction Cut (). Nous avons fait un effort intentionnel pour vous fournir l'exercice d'apprentissage le meilleur et le plus pratique et pour vous aider à apprendre de nouveaux concepts dans la programmation.