Lorsque vous travaillez avec DataFrames, il est souvent nécessaire de modifier un Pandas DataFrame pour supprimer les colonnes non pertinentes ou pour optimiser les données de construction du modèle. Parfois, certaines colonnes ne seront pas utiles pour votre analyse. Vous devez comprendre comment supprimer ces colonnes du Pandas Dataframe fourni. Les colonnes sont jetées à partir de modèles d'apprentissage automatique lorsqu'ils ne sont pas pertinents ou n'améliorent pas le modèle.
Méthode Pandas Drop ()
Dans les pandas, la manipulation des colonnes peut se produire de diverses manières. Par exemple, en utilisant le «DataFrame.Drop ”Méthode, les colonnes spécifiées peuvent être éliminées. C'est la méthode la plus couramment utilisée pour éliminer plusieurs colonnes dans Pandas. Comme son nom l'indique, cette méthode a été conçue pour rendre simple à supprimer des colonnes ou des lignes uniques ou multiples. Dans ce didacticiel détaillé, vous explorerez comment supprimer des colonnes uniques ou multiples à partir d'un pandas dataframe en utilisant leurs noms.
La syntaxe de cette fonction est fournie ci-dessous:
Ici, "nom de colonne" est le nom de la colonne que nous voulons laisser tomber. Le "axe" Spécifie quel axe doit être supprimé. L'axe 1 représente les colonnes, tandis que l'axe 0 représente les lignes. Le "en place" indique que l'opération de chute doit se produire dans la même dataframe plutôt que de générer une copie du dataframe après la goutte.
Vous apprendrez à utiliser cette méthode pour déposer des colonnes par son nom dans ce tutoriel.
Exemple n ° 1: Utilisation de Pandas «DataFrame.Drop () ”Méthode pour déposer une seule colonne par nom
Dans cet exemple, nous effectuerons une implémentation pratique de cette méthode pour éliminer une seule colonne par le nom du DataFrame.
Pour commencer à écrire le script Python pour l'exécution de cet exemple, nous devons avoir un assembleur pertinent sur lequel nous pouvons assembler le code. Nous avons une variété de choix, mais celui que nous avons choisi est l'outil «Spyder». Vous devez ouvrir le «Spyder-ide.Site Web org »et téléchargez l'outil« Spyder »selon les exigences de votre système d'exploitation. Nous utilisons le système d'exploitation Windows, nous avons donc téléchargé la configuration «Spyder» correspondante. Ensuite, nous l'avons simplement installé, et une fois le processus d'installation terminé, nous trouverons une interface utilisateur de l'outil. Nous avons ouvert un nouveau fichier en cliquant sur l'option «Nouveau fichier», ou vous pouvez même appuyer sur le «Ctrl + N» pour ouvrir le nouveau répertoire.
Maintenant, nous devons charger les bibliothèques préalables requises pour le script. La bibliothèque nécessaire à l'exécution de cette méthode est les «pandas».
Nous avons utilisé le «PD.Méthode DataFrame () », qui est fournie par la bibliothèque Pandas. Comme nous l'avons mentionné, «PD» est un alias pour les pandas, tandis que le «DataFrame» est le mot-clé pour générer le dataframe. Nous avons donc utilisé cette méthode pour construire notre DataFrame de base. Ce DataFrame a trois colonnes «plante», «prix» et «disponibilité». La colonne «Plant» détient les noms de différentes plantes, qui sont «Morina», «Oleander», «Acacia», «Olive», «Hopbush» et «Mango». La colonne «Prix» stocke les prix des usines, qui sont «500», «700», «1300», «600», «800» et «1150». La dernière colonne, «disponibilité», indique si l'usine est actuellement disponible ou non comme «Y», «N», «Y», «Y», «N» et «Y». Ici, «y» représente «oui» et «n» représente «non». La longueur des valeurs dans chaque colonne du dataframe doit être maintenue la même, ce qui est six dans ce cas. Nous avons maintenant besoin d'un objet DataFrame pour conserver le contenu sur ce DataFrame dedans. Nous avons donc créé un objet DataFrame «Forest» et lui avons donné le résultat généré en appelant le «PD.Méthode DataFrame () ». Nous pouvons obtenir le DataFrame en utilisant l'objet «Forest». Maintenant, pour afficher cette NELD DATAFRAME, nous avons une méthode Python pour afficher la sortie, qui est «print ()». Nous avons invoqué la méthode «print ()» et avons ajouté le nom du dataframe entre ses parenthèses.
Pour exécuter ce script Python Pandas, nous devons appuyer sur l'option "Exécuter le fichier". Alternativement, vous pouvez appuyer sur les touches «Shift + Enter» pour exécuter le programme. Ici, nous pouvons voir le dataframe que nous venons de créer avec trois colonnes et six rangées affichées sur la console de l'outil Spyder.
Notre DataFrame a été construit, et maintenant, nous pouvons exécuter les opérations requises à ce sujet. La tâche principale sera effectuée, qui est de supprimer une seule colonne en nomant en utilisant le Pandas «DataFrame.Méthode drop () ”. Tout d'abord, nous devons écrire le nom de notre dataframe, qui est «forêt» puis la «.Drop () ”La fonction est invoquée avec elle. Nous utilisons la méthode "Drop ()" avec trois paramètres ici "Column_name", "Axis" et "Inplace". Le nom de la colonne que nous avons fourni que nous voulons abandonner est la colonne «Prix». «L'axe» est défini sur «1», ce qui indique que la goutte est effectuée en termes de colonne.
Et le dernier paramètre, «InPlace», implique que les manipulations que nous avons faites apparaîtront dans le DataFrame réel, et qu'aucune copie du DataFrame ne sera générée. La colonne que nous abandonnerons sera éliminée directement de la dataframe d'origine. Enfin, nous avons utilisé la méthode «print ()» pour afficher le dataframe mis à jour d'origine après avoir déposé une colonne à partir de celui-ci.
L'extrait de code précédent, lorsqu'il est exécuté dans Python, nous fournit le DataFrame d'origine avec une certaine modification. Nous pouvons observer que cette dataframe n'a que deux colonnes tandis que la première initiale avait trois colonnes. Pour cette raison, la colonne «Prix» a été omise du DataFrame.
Exemple n ° 2: Utilisation de Pandas «DataFrame.Drop () ”Méthode pour supprimer plusieurs colonnes par nom
Nous avons élaboré la technique pour supprimer une seule colonne par son nom en utilisant le Pandas «DataFrame.Méthode drop () ”. Nous allons maintenant explorer la suppression de plusieurs colonnes avec la même technique.
Pour cet exemple, nous avons utilisé le dataframe construit dans l'instance précédente. Comme nous vous l'avons montré, le DataFrame «Forest» a trois colonnes «plante», «prix» et «disponibilité». Après avoir imprimé le DataFrame, nous avons appliqué le «DataFrame.Fonction Drop () ”. Nous avons mentionné le nom de la «forêt» de Dataframe avec le «.Méthode drop () ”.
Le titre de cette illustration indique que nous abandonnons plus d'une colonne ici. Les colonnes que nous avons choisies parmi les dataframe à baisser sont «prix» et «disponibilité». Entre les parenthèses de la «forêt.Drop () ”Fonction, nous avons fourni la liste des colonnes, défini« axe »sur« 1 »pour les colonnes, et« InPlace »est défini« vrai »pour représenter les modifications du dataframe d'origine. Enfin, nous avons appelé la méthode «print ()» pour afficher le résultat.
Dans l'image de sortie, vous pouvez voir que le dataframe est maintenant affiché avec une seule colonne car le reste des deux colonnes a été abandonné.
Conclusion
Laisser une colonne en utilisant son nom est une stratégie très utile et efficace dans Python Pandas. Cela rend l'analyse des données beaucoup plus facile et sans complication. Cet article vous aidera à comprendre ce concept et à vous fournir les meilleures approches pour atteindre le résultat souhaité. En écriture, nous avons expliqué et mis en œuvre la technique d'élimination d'une seule colonne par son nom et de supprimer plusieurs colonnes par nom. Nous avons exécuté l'exemple de code Python dans l'outil «Spyder». Apprendre à utiliser les pandas «DataFrame.La méthode drop () »serait bénéfique et pratique pour vos projets d'analyse de données.