Pandas read_csv multiprocessement

Pandas read_csv multiprocessement

Le multiprocessement est une technique d'utilisation de plusieurs processeurs ou noyaux pour effectuer des tâches en parallèle. Dans Python, le multiprocessement est implémenté via le module de multiprocessement. Il autorise l'utilisateur à exécuter plusieurs tâches simultanément, utilisant ainsi la pleine puissance du processeur de la machine.

Dans ce guide Python, nous présenterons un guide approfondi sur le «pandas.read_csv ()”Fonction avec un module multiprocesseur. Les sujets suivants seront couverts:

    • Fonction read_csv () dans Python
    • Lire CSV en utilisant "pandas.read_csv ()" Fonction
    • Lire CSV en utilisant "pandas.read_csv ()”Avec multiprocessement

«Pandas.Read_csv () ”Fonction dans Python

Le "pandas.read_csv ()"Est une fonction du module Pandas de Python qui lit / prend un fichier CSV et récupère un objet DataFrame contenant les données du CSV.

Syntaxe

PD.read_csv (filepath_or_buffer, sep = ',', en-tête = 'inférie


Exemple 1: Lire CSV en utilisant «Pandas.Fonction Read_csv () ”

Dans l'exemple ci-dessous, les «Pandas.La fonction read_csv () ”est utilisée pour lire les données CSV:


Code

importer des pandas
df = pandas.read_csv ('Exemple.csv ')
Imprimer (DF)


Dans l'extrait de code ci-dessus:

    • Le module nommé «pandas»Est importé.
    • Le "PD.read_csv ()»La fonction est utilisée pour lire le fichier CSV fourni.
    • Le "imprimer()»La fonction est utilisée pour afficher / afficher les données CSV.

Sortir


Comme observé, le contenu du fichier CSV a été affiché.

Exemple 2: Lire CSV en utilisant «Pandas.read_csv () ”avec multiprocessement

Le code suivant utilise le «PD.read_csv ()”Fonction pour lire plusieurs fichiers CSV en parallèle à l'aide de la bibliothèque multiprocesseur dans Python:

importer des pandas
importer le multiprocessement
Si __name__ == '__MAIN__':
piscine = multiprocessement.Piscine()
fichiers = ['Exemple.CSV ',' Exemple1.CSV ',' Exemple2.csv ']
dataframes = pool.Carte (Pandas.read_csv, fichiers)
Pour DF dans DataFrames:
Imprimer (DF)


Selon le code ci-dessus:

    • Les modules nommés «pandas" et "multiprocessement»Les modules sont importés.
    • Le "__nom__" et "__principal__«Les attributs sont utilisés avec le«si»Condition pour s'assurer que le code à l'intérieur s'exécute directement à partir du script plutôt que d'être importé.
    • À l'intérieur de la condition, le «multiprocessement.Piscine()»Est utilisé pour créer un objet de pool multiprocesseur en utilisant le nombre par défaut de processus disponibles sur le système.
    • La liste des noms de fichiers pour la lecture des fichiers CSV est initialisée et stockée dans une variable nommée «des dossiers".
    • Le "piscine.carte()«La méthode est utilisée pour appliquer le«PD.read_csv”Fonction à chaque fichier en parallèle. Cela signifie que chaque fichier est lu simultanément par un processus distinct, ce qui peut accélérer le temps de traitement global.
    • Finalement, le "pour”Loop est utilisé pour parcourir chaque trame de données.

Sortir


Dans ce résultat, le «PD.La fonction read_csv () ”est utilisée avec le multiprocessement pour lire les fichiers CSV.

Conclusion

Pour améliorer la vitesse de chargement des données, y compris ses avantages et ses limites le «PD.read_csv ()»La fonction est utilisée avec le module de multiprocessement. Le modèle de multiprocessement offre un moyen d'accélérer le chargement des données en utilisant plusieurs cœurs de CPU pour charger les données en parallèle. Ce didacticiel Python a présenté un guide approfondi sur le multiprocessement Python Read_CSV.