Les pandas concaténatent deux dataframes

Ethan Guillot

Les informations dont nous avons besoin apparaissent souvent dans de nombreuses sources dans des scénarios du monde réel. Pour évaluer les statistiques, nous nécessitons fréquemment l'intégration de plusieurs fichiers dans une seule données uniforme. Avec l'aide de Pandas, il est possible de combiner rapidement la série ainsi que le DataFrame avec les différents types de logique prédéfinie pour les index plus les capacités d'algèbre relationnelles pour les fonctions de type jointure et fusion. De plus, les pandas ont des outils qui vous permettent de comparer deux séries ou des dataframes et énumérer toutes les variances. Vous pourriez avoir besoin de combiner les données en utilisant une variété d'approches. Par exemple, vous pouvez concaténer les ensembles de données pour les fusionner. La concaténation des ensembles de données peut être effectuée dans une variété de méthodes.

Les actions de concaténation à travers l'axe sont gérées par la méthode Concat () et la logique de réglage supplémentaire pour les indices sur les plans adjacents est également effectué. Nous devons considérer certaines sélections tout en concaténant ou en ajoutant les dataframes. De tels choix pourraient impliquer des choses comme si nous voulons conserver les indices d'origine, ajouter des clés plus bénéfiques, et plus.

L'utilisation de la méthode du concaténate de pandas nécessite la syntaxe suivante:

Nous avons une charge de nombreux paramètres à notre disposition avec cette méthode pour adapter davantage la concaténation des données. Vous n'aurez pas nécessairement besoin de comprendre entièrement chacun de ceux-ci afin de naviguer. Néanmoins, il est important d'être conscient de leur existence ainsi que de tout ce qu'ils exécutent si votre cas d'utilisation les exige.

Exemple 1: Concaténer des colonnes similaires de deux dataframes à l'aide de la fonction de concaténate de pandas

L'exemple le plus simple et le plus simple à commencer est de concaténer les mêmes colonnes des deux différentes data.

Comme nous le savons, travailler avec le module Pandas de Python nécessite l'importation de la bibliothèque Pandas. Ainsi, nous commençons notre implémentation pratique des exemples de codes en important la bibliothèque Pandas en Python en tant que PD.

Une fois terminé, nous sommes maintenant prêts à commencer à travailler sur notre script principal car les fonctionnalités Pandas nous sont actuellement accessibles.

Nous créons ensuite nos données de données fondamentales. Nous avons besoin de deux dataframes ici car nous devons effectuer la concaténation.

Les variables «D1» et «D2» ont été générées et sont indiquées dans l'exemple donné. Nous avons utilisé la fonction Pandas DataFrame pour construire les DataFrames. Le PD.La méthode DataFrame () est invoquée. À l'intérieur de ses accolades, nous lui avons donné 2 valeurs - ID et nom. Les valeurs des deux colonnes des dataframes sont attribuées. Nous avons utilisé la méthode print () pour afficher à la fois les dataframes d1 et d2.

L'image de sortie suivante affiche 2 frames de données avec les mêmes colonnes:

Nous avons réussi à créer nos données de données. L'étape suivante consiste à les concaténer. À cette fin, nous utilisons la méthode du concaténate de pandas - PD.Concative (). Cette méthode fusionne les données des mêmes colonnes des deux dataframes d1 et d2.

Nous avons construit une variable «con_output» qui stocke le résultat de l'invoquer la PD.Fonction CONCAT (). Vous avez seulement besoin de fournir le PD.CONCAT () Fonctionne avec les objets que vous souhaitez concaténer afin que la liste des variables puisse être simplement transmise. Compte tenu de cela, nous pouvons entrer le [D1, D2]. Assurez-vous que si vous mettez directement la liste à l'intérieur du PD.CONCADE () Fonction, vous devez utiliser les supports «[]». Sinon, il donne une invite d'erreur. Nous pouf invoquer la méthode print () et le passher la variable «con_output» pour afficher tout ce que nous avons stocké dedans.

Les frames de données concaténés contenant les colonnes similaires sont obtenus en exécutant le programme susmentionné.

Les dataframes sont fusionnés comme ils l'ont été puisque nous n'avons mis aucun paramètre. En raison de ces facteurs, les paramètres réels des indices sont inclus. L'indice peut parfois nécessiter un ajustement. Le paramètre INDEX INDEX = VRUE peut être utilisé pour ce faire.

En tant que résultat, les index sont modifiés à partir de 0 allant jusqu'au point final de la taille. Les valeurs d'index modifiées sont affichées dans l'instantané suivant:

Exemple 2: concaténer différentes colonnes de deux dataframes à l'aide de la fonction de concaténate de pandas avec le paramètre de jointure

Nous ajoutons nos données de données les unes aux autres, verticalement, pour les concaténer. L'utilisation des colonnes de chaque ensemble de données qui ont des valeurs similaires telles qu'un ID unique partagé est une autre méthode de combinaison de DataFrames. «Rejoindre» est le processus de fusion des dataframes en utilisant un champ partagé. La «clé de jointure» fait référence aux colonnes qui incluent les données partagées. Cette méthode de combinaison des dataframes est souvent avantageuse lorsqu'un DataFrame sert de «table de recherche» pour le contenu supplémentaire que nous avons l'intention d'intégrer dans le deuxième tableau. Identique à la façon dont nous connectons les tables dans une base de données relationnelle, cette méthode rejoint de nombreux ensembles de données ensemble.

Vous possédez une flexibilité de manière à traiter les axes supplémentaires chaque fois que nous lions complètement de nombreuses données de données, à l'exclusion de celle qui se combine.

Il y a deux approches pour accomplir cela. La première approche consiste à entrer dans le join = "exter" pour obtenir la combinaison de tous ces. Ledit paramètre est le paramètre par défaut car aucune donnée n'est compromise. L'autre stratégie consiste à mettre en compte le passage à la croisement avec le join = "intérieur".

Prenons l'illustration suivante:

Ici, nous avons créé deux dataframes avec différentes colonnes. Le premier DataFrame «D1» se compose de 2 colonnes - ID et nom. Tandis que le deuxième dataframe «d3» a 2 colonnes - ville et âge. Nous avons créé un «résultat» variable pour stocker la sortie de l'appel PD.Fonction CONCAT ().

Entre les parenthèses de la fonction de concaténate de pandas, nous avons spécifié le nom des dataframes en tant que D1 et D3. La ligne finale du script appelle la méthode print ().

Cela nous donne la sortie suivante:

Les deux dataframes dans l'instance mentionnée précédemment sont fusionnées. Néanmoins, comme certaines colonnes étaient absentes de l'une ou l'autre des données de données, elles ont été fournies en utilisant les entrées vierges. Ces entrées sont insérées car la valeur par défaut de l'argument «join =» est «extérieure», ce qui explique leur inclusion. En conséquence, toutes les données entre les entités sont conservées.

«Inner» est un argument viable différent pour la méthode.

Nous avons utilisé les arguments «rejoindre» et «axe» dans ce cas. Pour l'argument «rejoindre», nous mettons la valeur «intérieure» alors que, pour l'argument «axe», il est défini sur «1». L '«axe» est l'axe le long desquels nous concatenons nos données de données. Il est défini sur 0 par défaut. Les colonnes supplémentaires sont introduites s'il est nécessaire pour augmenter le nombre d'objets à travers l'axe = 1. Le PD.Concat () effectue une jointure extérieure entre les lignes par défaut. Maintenant, nous avons modifié les valeurs par défaut, il effectue donc le jointure interne en colonne sur les dataframes pour la concaténation.

La sortie que nous obtenons du code exécuté précédemment est affichée dans les éléments suivants:

Conclusion

Cette discussion s'est concentrée sur la fonction de concaténate de pandas. Nous avons donné une introduction détaillée à la fonction de concaténate de pandas et la nécessité d'utiliser cette méthode. La syntaxe pour l'utilisation de cette technique est fournie au début et tous les paramètres que vous pouvez utiliser à l'intérieur de cette fonction sont identifiés. Nous avons élaboré la concaténation des deux dataframes avec une démonstration pratique des codes d'exemple. La combinaison des mêmes colonnes des différentes dataframes ainsi que la combinaison de DataFrame avec différentes colonnes est expliquée dans cette écriture. Apprendre à travailler avec les Pandas.La fonction concat () vous permet de gérer et d'analyser les données.

Python

Python Chmod

Le «OS.Chmod () ”La fonction du module OS est utilisée pour modifier la propriété du fichier Python ...

Lola Bonnet

Python

Histogramme Matplotlib 2D

À Python, le «PLT.Hist2d () La fonction du module pyplot dans la bibliothèque Matplotlib est utilisé...

Ines Dubois

Docker

Quelle est la différence entre Docker et Podman?

Docker utilise une architecture client-serveur tandis que Podman est un moteur de conteneur de démon...

Jules Colin