Pandas DataFrame de CSV

Un DataFrame est une structure de données bidimensionnelle dans Python accessible par le module Pandas qui stocke le contenu dans un format tabulaire. En d'autres termes, en utilisant des colonnes et des lignes. Chaque colonne d'une dataframe peut contenir un type d'élément varié.

Les fichiers CSV ou les «valeurs séparées des virgules» sont les valeurs séparées par des virgules et peuvent être affichées de la même manière qu'un fichier Excel. «Pandas» est le package de science des données le plus essentiel de Python. Lors de l'analyse des données, nous devons faire face à de grands ensembles de données, qui sont généralement au format CSV. Il existe plusieurs approches pour utiliser les fichiers CSV pour créer un Pandas DataFrame. La technique que nous avons choisi d'expliquer et de mettre en œuvre dans cet article est la méthode Pandas "read_csv ()". Pour lire et traiter les fichiers CSV, la méthode «lire CSV ()» de Pandas est essentielle.

Nous verrons sa démonstration pratique à travers l'exemple expliqué et exécuté dans ce qui suit:

Exemple: Utilisation de la méthode Pandas «read_csv ()» pour créer un dataframe à partir de CSV

Dans cette illustration, nous verrons comment nous pouvons créer un DataFrame à partir d'un fichier CSV en utilisant les pandas «PD.Méthode read_csv () ”. Passons à la mise en œuvre de ce concept pratiquement.

Pour chaque langage de programmation avec lequel vous sélectionnez pour travailler selon les exigences, vous devez trouver un logiciel ou un outil pour assembler cette langue sur. Lorsque vous commencez à le rechercher, vous trouverez un tas de choix. Dans notre article, le langage de programmation utilisé est «Python». Nous devons obtenir l'outil ou le logiciel qui assemblerait la langue et se trouve compatible avec notre système. À partir d'une variété de choix, nous avons sélectionné l'outil «Spyder». Nous devons le télécharger à partir du site officiel de «Spyder».

Une fois le téléchargement terminé, nous lançons l'assistant d'installation. Une fois l'installation terminée, vous pouvez accéder à l'outil en écrivant simplement son nom sur la barre de recherche de l'ordinateur portable. Cliquez sur lui ouvre l'interface de l'outil "Spyder". Ici, nous sommes tous prêts à commencer par notre démonstration pratique.

Sur l'interface de l'outil "Spyder", cliquez sur le bouton "nouveau fichier" ou appuyez sur "Ctrl + N" pour ouvrir un nouveau fichier. Ce fichier est ouvert et vous pouvez voir que le nom du fichier a un «.extension py ”. Cette extension fait référence au fichier «python». Nous sommes tous prêts à commencer à écrire le code. Maintenant, en commençant par le code, la première exigence avant tout lors de la rédaction d'un code consiste à importer ses bibliothèques pertinentes dont vous souhaitez accéder. Dans notre cas, l'illustration est basée sur la mise en œuvre des fonctionnalités «pandas». Ainsi, nous importons d'abord la bibliothèque à l'aide de la ligne de code «Importer des pandas en tant que PD». Ce «PD» est une forme courte pour les pandas, ce qui signifie que nous pouvons maintenant charger les méthodes de pandas en utilisant le «PD».

Maintenant, nous avons terminé d'importer la bibliothèque Pandas requise. La tâche suivante consiste à savoir comment créer un dataframe à l'aide du fichier CSV. Ici, vous avez deux choix: soit vous devez créer votre fichier CSV sur Microsoft Excel ou Google Dreatheets ou tout outil pertinent avec ".Extension CSV ”Si vous avez besoin d'effectuer des opérations dessus en Python ou si vous pouvez télécharger un exemple de fichier CSV à partir d'Internet à des fins d'apprentissage. Nous, en revanche, avons téléchargé un exemple de fichier CSV depuis Internet pour le processus d'apprentissage. Nous avons invoqué le «PD.Méthode read_csv () ”qui lit le fichier CSV fourni. Entre ses parenthèses, fournissez le nom du fichier CSV.

Comme nous l'avons mentionné, le «jour de la semaine.Nom de fichier CSV ». Une chose importante à considérer ici est que le fichier CSV que vous avez créé ou téléchargé doit être dans le même dossier où votre «.Les fichiers py »résident à l'intérieur du".dossier spyder-py3 ”. Sinon, lorsque vous essayez d'exécuter le programme, il lancera une erreur. Quand nous appelons le «PD.read_csv («en semaine.CSV ")" Méthode, il lit le contenu de ce fichier et crée un dataframe. Maintenant, pour stocker ce DataFrame, nous avons créé un «échantillon» d'objet DataFrame qui maintient la sortie générée à partir du «PD.Méthode read_csv () ”. Enfin, nous avons invoqué la méthode «print ()» pour afficher ce dataframe sur le terminal.

Étant nouveau à «Python» et «Spyder», vous pourriez penser à la façon d'exécuter le code qui est précédemment scénarisé. Il vous suffit d'appuyer sur le bouton "Exécuter le fichier" de l'interface "Spyder" ou simplement appuyer sur les touches "Shift + Enter" pour exécuter le programme. Voici notre DataFrame créé à partir du fichier CSV fourni.

Dans le DataFrame donné, nous avons quatre colonnes et sept rangées. La première colonne est «Nom» qui stocke les noms des jours de semaine comme «lundi», «mardi», «mercredi», «jeudi», «vendredi», «samedi» et «dimanche». La deuxième colonne «Abréviation» stocke les termes courts pour les données comme «Mon.", "Mar.»,« Mer.", "Jeu.", "Ven."," Sat "et" Sun ". Les troisième et quatrième colonnes sont «numériques» et «numériques-2». Ils stockent les chiffres de «0» à «7». Ils détiennent tous les deux des valeurs numériques pour les jours de semaine.

Il pourrait y avoir une situation où vous souhaitez simplement créer un DataFrame à partir des colonnes sélectionnées du fichier CSV. Cela peut être fait en utilisant le même «PD.Fonction read_csv () ”en ajoutant simplement un paramètre« usecol ». Ce paramètre prend le nom des colonnes que vous souhaitez récupérer à partir du fichier CSV pour le DataFrame. Comme nous l'avons déjà vu, les colonnes de notre dataframe qui sont importées du fichier CSV utilisent la colonne «Nom» et la colonne «numérique» à utiliser à partir du fichier CSV pour créer un DataFrame. Ensuite, nous avons invoqué la méthode «print ()» pour afficher les colonnes sélectionnées dans le dataframe.

L'exécution de ce code nous donne la sortie DataFrame avec seulement deux colonnes du fichier CSV. Le DataFrame est affiché dans l'image suivante:

Outre la création d'un dataframe à l'aide des colonnes sélectionnées à partir du fichier CSV fourni, vous pouvez également effectuer d'autres opérations. Il peut y avoir un fichier CSV contenant de grandes données et tout n'est pas nécessairement nécessaire pour être affiché pour votre dataframe car une grande donnée inutile créent parfois un gâchis. Donc, nous essayons souvent de l'éviter. Nous pouvons le faire en sautant les lignes non pertinentes à partir du dataframe. Nous devons ajouter un paramètre «skiprows» et spécifier les numéros de ligne que vous souhaitez exclure. Nous avons spécifié les numéros de ligne «[1, 3, 5]» ici. La méthode «print ()» est appelée pour afficher le nouveau DataFrame.

Ici, dans l'image de sortie, vous pouvez observer que le dataframe créé à partir du fichier CSV ne contient pas les lignes «1», «3» et «5».

Nous pouvons également modifier le nom de la colonne du fichier CSV en fonction de nos exigences pour le DataFrame lorsque nous appelons le «PD.Fonction Read_csv () ”. Pour terminer cette opération, nous devons passer une liste de chaînes de caractère au «PD.Paramètre «Noms» de la fonction LEAD_CSV () ». Ces chaînes de caractère servent de noms des nouvelles colonnes. De plus, il semble logique d'exclure la première ligne de l'ensemble de données d'entrée car il contient le titre d'origine du fichier CSV. Nous avons fourni les noms des colonnes comme «Noms = [« C1 »,« C2 »,« C3 »,« C4 »]». Enfin, nous avons affiché le dataframe avec de nouveaux noms de colonnes.

Cela nous permet à la sortie de données de sortie suivante:

Conclusion

Les dataframes sont les blocs les plus utilisés et les plus importants des pandas Python. Il existe plusieurs façons de créer une dataframe en pandas. De quoi, nous avons discuté de la façon de créer un DataFrame à partir d'un fichier CSV dans cet article. Nous avons utilisé une méthode Pandas "read_csv ()" pour lire le fichier CSV fourni, puis créer un dataframe à partir de celui-ci. Grâce à l'implémentation pratique des exemples de codes exécutés sur «Spyder», nous avons développé l'utilisation de cette fonction. Nous avons également expliqué et mis en œuvre les différents paramètres utiles fournis par cette méthode pour atteindre le résultat souhaité. Nous prévoyons que nos efforts pour rendre l'apprentissage dans les modules Pandas Easy vous aideront vraiment dans votre création de compétences Python.

Python

Comment puis-je vérifier si une chaîne est vide en python

Fonction «Not», fonction «Len ()», fonction «strip ()», opérateur «==», méthode «__eq __ ()», ou «pa...

Sarah Roux

Python

Étiquettes de l'axe marin

Les «haches.Set () ”Fonction, Fonctions de la bibliothèque Matplotlib, ou les fonctions set_xLabel (...

Julien Dumas

Python

Pandas read_csv multiprocessement

Pour améliorer la vitesse de chargement des données, y compris ses avantages et ses limites le «PD.L...

Nathan Blanc