Comment exporter DataFrame vers CSV dans Python

Comment exporter DataFrame vers CSV dans Python

Lorsque vous travaillez avec un ensemble de données et en exécutant le prétraitement nécessaire, les données prétraitées doivent être enregistrées dans un format de données comme CSV, Excel ou une autre. Dans les applications basées sur des données, le CSV (valeurs séparées des virgules) est fréquemment utilisée pour la communication de données. Nous stockons généralement les données des applications Web dans une dataframe, un tableau, une liste, un tuple, un dictionnaire, etc. Les clients pourraient exiger que les données soient exportées en tant que fichier CSV. Les données sont stockées dans des fichiers CSV comme une séquence de données. Nous pouvons utiliser Python Pandas pour écrire des données sur un fichier CSV comme dans d'autres langages de programmation.

Qu'est-ce qu'un Pandas Dataframe?

Dans Python, le module Pandas comprend une fonction «Pandas.DataFrame () ”pour créer un dataframe. Semblable à une feuille de calcul, un dataframe est une structure de données qui organise les données dans une table 2D de colonnes et de lignes. En raison de leur adaptabilité et de leur simplicité dans le stockage et la manipulation des données, les données de données sont parmi les structures de données les plus populaires et les plus efficaces dans l'analyse de données moderne.

Syntaxe:

pandas.DataFrame (données, index, colonnes, dtype, copie)

Comment exporter une dataframe vers un CSV dans Python?

La méthode to_csv () dans Python Pandas peut convertir un DataFrame en un fichier CSV. Nous pouvons écrire la sortie dans un fichier si un paramètre / argument de fichier est fourni. Sinon, une chaîne CSV sera retournée. Bien que la fonction to_csv () ait de nombreux attributs, nous n'avons mentionné que ceux qui sont le plus fréquemment utilisés ici.

Syntaxe:

trame de données.to_csv (chemin, sept, na_rep, float_format, colonnes, en-tête, index, mode, compression)

Où,

chemin: Il fait référence à un fichier ou à la poignée STR. En général, il spécifie le chemin / l'emplacement d'un fichier ou d'un objet. Aucun par défaut. Quand aucun n'est fourni, une valeur de chaîne est renvoyée.

sep: C'est une valeur de chaîne qui a une longueur de 1. La virgule est sa valeur par défaut (,).

na_rep: Une valeur de données de chaîne qui symbolise ou représente les valeurs manquantes ou nuls. La valeur par défaut est la chaîne vide.

float_format: Il contient une valeur de chaîne pour la mise en forme ou la structuration d'une chaîne de nombres à virgule flottante.

Colonnes: C'est un paramètre qui est facultatif et fait référence à une série qui spécifie les colonnes qui doivent être présentes dans la sortie CSV.

entête: Une collection de cordes ou une valeur booléenne. Si défini sur False. Les noms des colonnes ne seront pas écrits dans la sortie. Vrai est sa valeur par défaut.

Indice: S'il est défini sur true, les données CSV incluent l'index. Sinon, la sortie CSV n'a pas la valeur d'index.

Mode: En mode d'écriture, il fait référence à une valeur de chaîne. W est sa valeur par défaut.

Compression: Une valeur de chaîne qui comprime le mode à l'aide de l'une des options suivantes: inférer, gzip, xz, bz2, zip ou non. Si «inférer» et «chemin» ressemblent à un chemin, il identifie la compression à partir des extensions de fichiers «.gz »,«.bz2 ”,« zip »ou« xz ». Sinon, aucune compression n'a lieu.

Nous allons maintenant créer un Pandas DataFrame que nous pouvons utiliser pour exporter les données vers CSV dans les exemples de ce tutoriel.

Création d'un exemple de dataframe

Pour créer notre DataFrame, nous importerons d'abord le module requis, i.e., pandas. Après l'importation du module, la fonction DataFrame () créera notre DataFrame.

Nous avons créé notre dataframe en passant un dict python à l'intérieur du PD.Fonction DataFrame (). Notre DataFrame se compose de trois colonnes (nom, âge et marques).

Maintenant, apprenons à exporter une dataframe vers un fichier CSV.

Exporter DataFrame vers CSV sans index

Lorsque vous utilisez le DF.TO_CSV () Méthode Pour exporter un DataFrame de Pandas à un fichier CSV, un index pour le dataframe est automatiquement inclus. Définir l'index = false sur true si vous ne le souhaitez pas ou que vous avez besoin d'inclure un index.

Fichier de sortie:

Lorsque l'index n'a pas de sens, cela peut être utile. Mais, si l'index stocke des données importantes ou significatives, comme les données de séries chronologiques, vous ne devriez pas les supprimer. Vrai est la valeur par défaut du paramètre d'index. En conséquence, vous pouvez simplement laisser le paramètre seul si vous voulez que l'index soit inclus

Exportation de DataFrame vers CSV avec des colonnes spécifiques

Avant d'exporter, vous pourriez être conscient de la taille de vos données lorsque vous l'exportez. Limiter les colonnes que vous exportez est une méthode pour réduire la taille du fichier CSV généré. À l'aide du paramètre des colonnes, nous pouvons spécifier une liste contenant les noms des colonnes que nous voulons inclure dans notre fichier d'exportation. L'exportation exclura toutes les colonnes qui ne sont pas présentes dans la liste.

Fichier de sortie:

Nous avons spécifié le paramètre de colonne avec une liste contenant des noms de colonne «nom» et «marques», donc seules ces deux colonnes ont été exportées vers notre fichier CSV.

Exporter le dataframe vers CSV et modifier le séparateur

Nous pouvons délimiter le fichier CSV par des caractères autres qu'une virgule, bien que les virgules soient le caractère qui leur donne leur nom (fichiers de valeur séparés par des virgules). La valeur de l'onglet, par exemple, est un séparateur typique et est représenté \ T. Dans Pandas, nous pouvons changer notre séparateur en utilisant l'argument SEP.

Fichier de sortie:

Exporter le dataframe vers CSV et traitant des valeurs manquantes / aucune

Les informations concernant les données manquantes ne sont pas incluses par défaut dans les fichiers CSV. Une cellule vide sera générée lorsque les données manquantes seront exportées vers CSV. L'argument NA_REP vous permet d'afficher une valeur alternative, comme Null ou N / A, à la place de toutes les valeurs manquantes. Cela prend tout type de chaîne en entrée, mais la valeur par défaut est une chaîne vide. Pour cela, nous utiliserons une autre dataframe contenant des valeurs de données manquantes.

Définissons la chaîne «null» comme valeur du paramètre na_rep.

Fichier de sortie:

Exporter le dataframe vers CSV sans en-tête

En science des données, un ensemble de données peut nécessiter l'exportation de données à partir d'un dataframe sans en-tête à un moment donné. C'est souvent le cas lors de l'exportation d'énormes ensembles de données qui doivent être réunis plus tard. Un dataframe peut être facilement converti en CSV sans l'en-tête. Pour y parvenir, l'argument d'en-tête peut être utilisé. Il est vrai par défaut, indiquant que l'en-tête sera inclus.

Fichier de sortie:

Compression des données lors de l'exportation de données de données vers CSV

Il peut être utile de compresser de grands ensembles de données lorsque vous travaillez avec ceux destinés à un stockage à long terme, en particulier lors de l'enregistrement au format CSV. La taille du fichier diminue à mesure qu'un ensemble de données est compressé. Cependant, l'exportation de DataFrame vers le processus CSV prendra plus de temps. De même, il faudra plus de temps aux pandas pour transformer le CSV en un dataframe. Parce que la compression nécessite plus de temps qu'une simple exportation, cela prend plus de temps. Voyons comment nous pouvons compresser nos données à l'aide de l'argument de compression:

Sortir:

Le fichier CSV de sortie est maintenant compressé.

Exporter DataFrame vers le fichier CSV avec un codage différent

Vous devrez souvent crypter les données lorsque vous travaillez avec les données de chaîne. Si vous avez affaire à des données encodées ou numériques, c'est moins souvent, mais les chaînes ont souvent besoin d'instructions supplémentaires sur la façon dont ils doivent être interprétés.

Le format de codage UTF-8, l'un des formats de codage les plus utilisés, est le type de codage par défaut. Utilisons le codage UTF-16 pour exporter des données de données vers CSV.

Sortir:

Conclusion

Dans ce tutoriel, nous avons d'abord vu l'introduction de fichiers CSV et de Pandas DataFrame. Nous avons discuté de la façon dont une dataframe pourrait être exportée vers un CSV à Python. Nous avons essayé d'expliquer comment utiliser les pandas.TO_CSV () Méthode efficacement et comment nous pouvons utiliser différents arguments de la fonction to_csv () pour modifier la façon dont les données sont exportées. Après avoir couvert ce message, vous devriez tous être en mesure de créer un fichier CSV à partir d'un Pandas DataFrame.