Type de colonne de modification des pandas

Type de colonne de modification des pandas
Dans le contexte de la programmation, une colonne est un groupe de valeurs de données qui sont toutes des mêmes types et qui se trouvent dans un tableau, une série, un dataframe, etc. lorsqu'il est discuté. Les données sont organisées verticalement dans une colonne de haut en bas. Tout en utilisant le Pandas DataFrame, le besoin peut survenir pour modifier le type de données spécifique à toutes les colonnes d'un Pandas DataFrame déjà créé. Le but de cet article est d'expliquer comment le type de données de la colonne peut être modifié dans Pandas Dataframes. Nous utiliserons les différentes fonctions pour modifier le type de données d'une ou plusieurs colonnes à l'intérieur du Pandas DataFrame.

Comment changer le type de données de la colonne dans Pandas

Différentes fonctions dans les pandas peuvent être utilisées pour modifier le type de données des colonnes dans un dataframe. Dans les exemples suivants, nous expliquerons en détail comment vous pouvez modifier les données des colonnes dans le dataframe.

Exemple 1: Utilisation du dataframe.Fonction Astype ()

Pour créer un exemple de dataframe, nous importerons d'abord les pandas comme PD pour utiliser les fonctionnalités fournies par l'informatique. Pour démontrer le fonctionnement de la fonction ASTYPE (), nous créons un dataframe avec trois colonnes de différents types de données. En utilisant le dataframe.Méthode Astype (), nous pouvons convertir un objet Pandas en un DTYPE requis. De plus, cette méthode permet aux utilisateurs de modifier une colonne (appropriée) du DataFrame en un type de catégorie.


Comme on peut le voir dans l'illustration précédente, nous avons créé trois colonnes: X, Y et Z. Lorsque la colonne X se compose de valeurs int et string ['2', 4, 6, '8' et 10], la colonne Y n'a que des valeurs de chaîne ['p', 'q', 'r', 's', 't'], et la colonne Z se compose de valeurs de flotteur et de chaîne. Pour afficher le type de données de chaque colonne dans notre DataFrame, l'attribut DTYPES est utilisé. L'attribut «DTYPES» peut être utilisé pour déterminer le type de données dans un Pandas DataFrame, une série comprenant les types de données de chaque colonne renvoyée par l'attribut.


Comme on peut le voir dans l'illustration Pevious, le type de données de chaque colonne est indiqué comme «objet». Comme vous pouvez le remarquer, il y a au moins une valeur de chaîne dans chaque colonne (x, y et z) du dataframe. Ainsi, l'attribut DTYPE considère le type de données de chaque colonne comme un «objet». Maintenant, modifions le type de données de la colonne X à l'aide de la fonction Astype ().


Nous avons attribué le type de données int à la colonne X de notre DataFrame «DF» et attribué le nouveau DataFrame à la variable nommée «DF». Maintenant, nous pouvons vérifier en utilisant l'attribut dTypes si le type de données de la colonne X est modifié ou non.


On peut voir que le type de données de la colonne X est passé de l'objet à «int32». Vous pouvez définir un seul type de données pour l'ensemble des données ou séparément à chaque colonne DataFrame à l'aide d'un dictionnaire Python. Spécions les différents dataTypes à chaque colonne du DataFrame à l'aide d'un dictionnaire.


Dans le dictionnaire précédent, nous avons spécifié la colonne DataType «int» à x, le type de données «String» à la colonne Y et le type de données «Float» à la colonne Z de la dataframe «df». En utilisant l'attribut dTypes, vérifions les données actuelles des colonnes X, Y et Z dans notre DataFrame.


Les données de données de chaque colonne sont modifiées avec succès. Nous pouvons également utiliser la fonction ASTYPE () pour spécifier un seul type de données à toutes les colonnes de notre DataFrame.


Nous avons utilisé la méthode ASTYPE () pour notre «DF» DataFrame et passé le type de données «String» comme argument pour modifier le type de données de chaque colonne en «Objet».

Exemple 2: Utilisation de la fonction to_numeric ()

Appliquer () nous permet de convertir le type de données de colonnes spécifiques ou toutes.to_numeric, "" Pandas.to_datetime "et" pandas.to_timedelta ". Selon les valeurs présentes dans la colonne, la fonction to_numeric () modifie le type de données d'une colonne DataFrame à un int ou float. Le type de données de la colonne est modifié en «int64» s'il contient uniquement des numéros entiers. Le type de données de la colonne est converti en «float64» en utilisant le to_numeric () s'il contient des valeurs avec des points décimaux. Pour expliquer cela à l'aide d'un exemple, créons un DataFrame avec le type de données de chaîne, mais nous utilisons les valeurs entières comme «chaînes».


Nous importons d'abord les pandas et les modules Numpy. Ensuite, nous créons le dataframe à l'aide du PD.Fonction DataFrame (). À l'intérieur du PD.Fonction DataFrame, nous passons les trois listes: ['1', '2', '3'], ['4', '5', '6'] et ['7', '8', '9' ]]. Les noms des colonnes sont spécifiés comme «x», «y» et «z». L'attribut DTypes est utilisé pour afficher les données des colonnes X, Y et Z.


Actuellement, le type de données de chaque ligne est «objet». Nous utilisons maintenant la fonction to_numeric () pour modifier son type de données.


Comme mentionné précédemment, si les colonnes contiennent des nombres décimaux, la fonction TO_NUMER () modifie automatiquement le type de données en «int64». Vérifions si les données sont modifiées ou non.


Comme nous avons utilisé les nombres décimaux comme valeurs de «chaîne» dans le DataFrame «DF», la fonction TO_NUMERIC () les a converties avec succès en «int64». Et s'il y a une colonne avec des valeurs de flotteur sous forme de «chaîne» dans le dataframe «df»? La fonction to_numeric () changera-t-elle son type de données en «float64»? Pour répondre à cette question, nous ajoutons une autre colonne avec des valeurs de flotteur sous la forme de «chaîne» dans le dataframe «DF» récemment créé.


Nous avons ajouté une autre colonne à notre DataFrame «DF» et spécifié les noms de colonne comme W, X, Y et Z. La colonne Z nouvellement ajoutée se compose uniquement de valeurs de point décimales sous forme de «chaîne». Appliquons la fonction to_numeric () pour voir les résultats.


Le type de données des colonnes ayant des nombres sans décimal est converti en «int64» et le numéro décimal en «float64» en utilisant la fonction to_numeric ().

Exemple 3: Utilisation de la fonction convert_dtypes ()

Dans les deux exemples précédents, nous avons modifié le type de données des colonnes DataFrame à l'aide des fonctions Astype () et To_Numeric (). Nous pouvons également modifier le type de données des colonnes dans notre fonction DataFrame en utilisant la fonction convert_dtypes (). Après avoir évalué les données, la méthode convert_dtypes () renvoie un nouveau dataframe avec le type de données de chaque colonne converti en type de données le plus approprié (optimisé). Pour comprendre la fonction convert_dtypes (), créons d'abord un exemple de données de données.


Après avoir importé le module Pandas, nous avons créé deux listes - «Nom» et «Student». Dans la liste «Nom», nous avons des valeurs de chaîne et nuls («Tom», PD.Na, «Max», «Tony»). Alors que dans la liste «étudiante», nous avons les valeurs booléennes avec certaines valeurs nulles (vrai, PD.Na, False, PD.N / A). Nous avons attribué les deux listes à la variable «données». Le PD.La fonction DataFrame () est utilisée pour créer un DataFrame à l'intérieur de laquelle la variable de données est transmise comme un argument. Ensuite, nous avons utilisé l'attribut DTypes qui a donné les données de toutes les colonnes de notre DataFrame. Comme on le voit dans l'illustration précédente, le type de données de chaque colonne de notre dataframe est «objet». Utilisons la fonction convert_dtypes () pour modifier les données des colonnes avec des données appropriées.


Comme on peut le voir, la fonction convert_dtypes () a changé les données des colonnes avec le type de données le plus approprié (optimisé). Le type de données de la colonne «Nom» est changé en «String» et le type de données des colonnes «Student» est changé en booléen.

Conclusion

Dans ce tutoriel, nous avons traversé différentes façons de modifier le type de données de la colonne de DataFrame en utilisant différentes fonctions. Nous avons essayé de vous rendre capable de modifier le type de données de la colonne d'une dataframe par vous-même en utilisant les fonctions Astype (), To_Numeric () et Convert_Dtypes (). Nous avons mis en œuvre plusieurs exemples pour vous apprendre à utiliser le dataframe.Fonction ASTYPE (), comment utiliser la fonction TO_NUMERIC () et comment utiliser la fonction convert_dtypes () pour modifier le type de colonne.