Pandas catégoriques

Pandas catégoriques
Les variables catégorielles utilisées dans les statistiques sont représentées par le type de données Pandas catégorique. Les données en temps réel contient généralement des colonnes de texte avec des données répétitives. Il y a toujours une répétition dans les fonctionnalités comme le sexe, le groupe sanguin et les codes. Ils peuvent être pris comme des exemples de catégoriels. Il n'y a qu'un nombre ou une plage ou une plage de valeurs possibles fixes pour les variables catégorielles. Les données catégoriques peuvent avoir une commande en plus de la longueur fixe, mais elles ne peuvent pas exécuter les opérations numériques. Dans ce didacticiel, nous apprendrons à créer une catégorielle en pandas et à changer différents dataTypes en catégorie.

Quand utiliser catégorique?

Dans les scénarios suivants, nous pouvons utiliser le type de données catégorique:

  • Une variable de chaîne avec seulement quelques valeurs distinctes. Pour enregistrer la mémoire, la variable peut être transformée en une variable de catégorie.
  • La variable d'ordre logique («un», «deux» et «trois») et une variable avec l'ordre lexical ne sont pas les mêmes. Le tri et le minimum / maximum utiliseront l'ordre logique par opposition à l'ordre lexical si le problème est converti en catégorie et que les catégories reçoivent un ordre.
  • D'autres bibliothèques Python doivent traiter les colonnes comme des variables catégorielles (par exemple, pour utiliser des types ou des fonctions de tracé statistique appropriés).

Comment créer des catégoriques Pandas?

Il existe un large éventail de façons de créer des catégorielles en pandas. Certaines fonctions et attributs pour créer des catégories dans les pandas seront discutés dans les exemples suivants:

Exemple n ° 1: Création catégorique à l'aide de la série Pandas

Une catégorielle peut être créée en pandas en utilisant le PD.Série () Fonction. Pour créer une série, nous importerons d'abord le module Pandas.

Nous avons utilisé une liste de chaînes ["ASD", "123", "Def", "456"] à l'intérieur du PD.La série () fonctionne comme un argument. Nous avons également spécifié le paramètre «dtype» à «catégorie» pour stocker les données en tant que catégorielle. Voyons la catégorielle en imprimant la variable «String».

Comme le montre la sortie, notre série est convertie en catégorielle en spécifiant la dtype = 'catégorie'.

Exemple n ° 2: Création de données catégorielles dans les pandas

En utilisant des pandas.DataFrame (dtype = ”catégorie”), les données catégorielles peuvent être construites. Tout comme les séries, l'attribut DType de la fonction DataFrame () est défini sur «Catégorie» pour créer une catégorielle DataFrame. En définissant dtype = «catégorie» dans le constructeur DataFrame, toutes les colonnes du cadre de données peuvent être classées catégoriques pendant ou après la construction. Créons un exemple de données de données pour afficher la différence entre les dataframes ordinaires et catégoriels.

Pour créer nos données «DF», nous avons d'abord importé les modules Pandas et Numpy pour utiliser leurs fonctionnalités et fonctions. Après avoir importé les modules, nous avons créé un dictionnaire «données» ayant deux clés, «COL1» et «COL2». Le dictionnaire «Data» est ensuite transmis au PD.Fonction DataFrame () pour créer le «DF» DataFrame.

Il s'agit d'un Pandas DataFrame ordinaire avec des colonnes stockant des données numériques. Pour déterminer les données des colonnes dans le DataFrame «DF», l'attribut DTYPES sera utilisé.

Le type de données des colonnes «col1» et «col2» est «int64». Maintenant, nous allons vous montrer comment créer une dataframe catégorique avec les mêmes étiquettes et valeurs de la même colonne.

Comme on le voit dans ce DataFrame, nous avons spécifié le DTYPE à la «catégorie». Vérifions les données de ce DataFrame:

Comme indiqué, le type de données de ces colonnes de DataFrame est la «catégorie». Donc, c'est une dataframe catégorique.

Exemple # 3: Création de catégorielles à l'aide de la fonction Astype ()

Un objet Pandas peut être converti en un DType particulier en utilisant le «DataFrame.Méthode Astype () ». De plus, la méthode ASTYPE () offre la possibilité de modifier toute colonne existante appropriée en un type de catégorie. Lorsque nous devons convertir le type de données d'une colonne spécifique de DataFrame en un autre type de données, le DataFrame.La fonction ASTYPE () peut être utilisée. Tout d'abord, nous créerons un exemple de dataframe. Ensuite, nous convertirons les colonnes DataFrame en catégorielle.

Nous avons créé notre DataFrame en passant le dictionnaire à l'intérieur du PD.DataFrame () fonctionne comme un argument.

Comme le montre le «DF» de données précédentes, il y a trois colonnes, A, B et C, stockant les valeurs [1, 3, 5, 7], [2.1, 4.2, 8.3, 16.4], et [«John», «Tim», «Clay», «Mike»] respectivement. Pour déterminer le type de données de chaque colonne, nous utiliserons l'attribut dTypes.

Le type de données de la colonne «A» est «int64», tandis que les données de la colonne «B» et «C» sont respectivement «float64» et «objet»,. Maintenant, nous utiliserons la fonction ASTYPE () pour modifier le type de données de colonnes spécifiques.

À l'intérieur du DF.Fonction Astype (), nous avons passé le dictionnaire Python contenant les étiquettes des colonnes «A» et «C» comme touches, et le type de données «catégorie» est spécifié comme valeur pour les deux étiquettes de colonnes. Vérifions si les données sont modifiées dans la catégorie ou non.

Notez que les colonnes «A» et «C» ont été converties avec succès en catégorie.

Exemple n ° 4: Utilisation de la fonction catégorielle () pour créer la catégorie

Nous pouvons créer des variables catégorielles dans les pandas en utilisant la fonction catégorielle (). Tout d'abord, nous examinerons la syntaxe de la fonction (), puis l'utiliserons pour créer la catégorielle.

Syntaxe:

pandas.Catégorique (val, catégories = aucun, ordonné = aucun, dtype = aucun)

Paramètres:

Catégories: Indexé. Les catégories distinctives pour la catégorielle. Les catégories sont présumées être des valeurs distinctes des «valeurs» si elle n'est pas spécifiée.

Ordonné (facultatif): Si cette catégorielle est considérée comme une catégorielle ordonnée. Si c'est vrai, la sortie catégorique sera triée. Lorsqu'il est trié, une catégorielle ordonnée respecte l'ordre de l'attribut.

Dtype: Catégorique. Une instance à utiliser pour.
Créons maintenant les pandas catégoriques à l'aide du PD.Fonction catégorique (). Tout d'abord, nous importerons le module Pandas pour créer notre catégorie.

Comme on peut le voir, nous avons créé deux catégories, «Cat1» et «Cat2», en passant une liste de valeurs à l'intérieur des parenthèses de la fonction catégorique (). Vous remarquerez dans la sortie que «Cat1» catégorique se compose de 3 catégories [1, 3, 4, 6], tandis que «Cat2» catégorique se compose de 6 catégories [«a», «d», «g», «j» , 's', 'w'].

Maintenant, vérifions la sortie en spécifiant le paramètre «ordonné» à «vrai».

Comme vous pouvez l'observer, en spécifiant Ordered = true, la sortie catégorique est maintenant triée [1 < 3 < 4 < 6].

Maintenant, essayons un autre exemple lorsque le paramètre «Catégories» est spécifié.

À l'intérieur du PD.Fonction catégorique (), la liste ['1', '2', '3', '2', '1', '4', '2'] est transmise pour être convertie en catégorique, tandis que la liste ['3 3 ',' 1 ',' 2 '] est spécifié comme le paramètre «Catégories». Imprimons le «chat» catégorique pour voir la sortie.

En conséquence, toute valeur qui n'existe pas dans la liste des catégories sera considérée comme nan. À partir de la liste «val», la valeur «4» n'est pas présente dans la liste d'arguments «catégories», il est donc considéré comme nan.

Vous pouvez également effectuer des fonctions différentes avec des catégories telles que le renommer les catégories, l'ajout de nouvelles catégories, la suppression des catégories, etc.

Conclusion

Dans ce tutoriel, nous avons vu ces statistiques que les variables catégoriques sont représentées par un type de données dans des pandas appelés catégoriques. Une variable catégorique a un ensemble fixe et généralement contraint de valeurs possibles. Après avoir vécu ce tutoriel, vous connaissez peut-être Categorial in Pandas et pourriez être en mesure de créer des catégoriques par vous-même. Nous avons mis en œuvre quelques exemples dans ce tutoriel pour vous apprendre à créer des séries catégorielles à l'aide de la série, des colonnes de données, de la fonction ASTYPE (), et en utilisant la fonction catégorique ().