Les pandas fusionnent par index

Les pandas fusionnent par index
La procédure de combinaison de deux ensembles de données en un seul et d'alignement des lignes en fonction des attributs ou colonnes partagés est connu sous le nom de «Pandas Merge ()». À l'aide d'une opération de jointure de style de base de données, deux objets DataFrames sont combinés à l'aide de la fonction Pandas DataFrame «Merge ()». Une structure de données bidimensionnelle appelée Pandas DataFrame est alignée dans un format tabulaire. Il existe de nombreuses façons d'intégrer ces dataframes, y compris «join ()» et «fusiter ()». Les procédures de jointure complètes de Pandas et les performances exceptionnelles sont comparables à celles d'une base de données relationnelle SQL. Joindre les opérations entre les objets DataFrames peuvent être réalisés en utilisant la fonction "Merge ()". Sur les colonnes ou les index, la jonction est effectuée. Les index ne sont pas pris en considération lors de l'adhésion aux colonnes. Les objets Source DataFrame ne sont pas touchés et un nouveau DataFrame est renvoyé par cette fonction.

Bien qu'ils soient utilisés dans des situations distinctes, les pandas «rejoignent» et «fusionner» sont utilisés pour effectuer des jointures sur les pandas dataframes. Alors que la procédure "Merge ()" est plus flexible et vous permet de rejoindre des dataframes sur les index et les colonnes, la fonction join () est généralement utilisée pour rejoindre des dataframes sur l'index. Le «Left_index» est utilisé comme clé de jointure et «droite _index», qui utilise l'index de la «DataFrame de droite», est utilisée comme autre clé de liaison. La technique «join ()» peut être utilisée pour rejoindre le dataframe gauche à une colonne, mais la bonne dataframe exige qu'elle soit attachée à son index.

La syntaxe pour combiner deux dataframes par index à l'aide de la méthode Merge ()

En utilisant cette syntaxe, deux dataframes peuvent être combinés en fonction de leurs index.

La syntaxe pour rejoindre deux dataframes par index à l'aide de la méthode join ()

Exemple 1: En utilisant leur index, la fonction Merge () peut être utilisée pour rejoindre deux dataframes.

Panda est un module pour le traitement des données. Les données tabulaires peuvent être stockées dans Python en utilisant un dataframe. Vous pouvez rapidement stocker et travailler avec des données tabulaires, telles que les lignes et les colonnes, en utilisant le dataframe. Pandas propose une variété d'installations pour combiner des séries ou des données de données avec divers types de raisonnement défini pour les index et les capacités de mathématiques structurelles en cas d'opérations de jointure ou de fusion.

Dans cet exemple, nous utiliserons la fonction "Merge ()" pour rejoindre deux dataframes en correspondant à leurs valeurs d'index. Dans cet exemple, deux cadres de données sont créés. Le premier DataFrame a deux colonnes et est nommé «Data1». «L'âge» et les «noms» sont les colonnes de «data1». Nous avons une liste de valeurs dans chaque colonne. Les valeurs pour «l'âge», nous avons «28», «37», «29» et «32» et pour la colonne «nom», nous avons «George», «James», «Arthur» et «Henry». Dans ce Dataframe, la taille de l'index est «4». L'index «id» est «1», «2», «3» et «4». Les informations d'index de DataFrame sont renvoyées via la propriété Index. Les étiquettes des lignes sont contenues dans les informations d'index. La propriété d'index produit un objet d'index de plage avec les valeurs de démarrage, de fin et de phase si les lignes n'ont pas d'index nommés.

Ensuite, nous créons un autre DataFrame «Data2». Il a deux colonnes «id» et «profession». Dans ces deux colonnes, nous avons une liste de valeurs. Dans la colonne «ID», nous avons «1», «2», «3» et «4» . La colonne «profession» a «docteur» et «enseignant» et «ingénieur». Ensuite, nous mentionnons l'index ici qui est «1», «2», «3», «6» et «7».

Maintenant, nous utilisons la fonction «Merge ()» pour rejoindre les deux cadres de données, «Data1» et «Data2». Deux paramètres de la fonction de fusion sont utilisés: «Left_index = true» et «droite_index = true. Certaines lignes et colonnes de données doivent être choisies parmi un dataframe. En tant que clé combinée, «l'index gauche» est utilisé à partir de la touche Dataframe gauche et d'une autre clé de connexion. Le «Right _index» utilise l'index de la bonne dataframe.

L'indexation est le processus de choix de toutes les lignes et certaines des colonnes, certaines des lignes et toutes les colonnes, ou un morceau de chaque ligne et chaque colonne. Un autre nom pour l'indexation est la sélection des sous-ensembles. «Merge ()» est la fonction dont vous avez besoin lorsque vous souhaitez fusionner des éléments de données en fonction d'une ou plusieurs clés, tout comme vous le feriez dans une base de données relationnelle. La fusion des lignes en particulier avec des données similaires est mieux accomplie avec la fonction «fusionner ()». Maintenant, il concaténera les deux dataframes en faisant correspondre leur adresse d'index et en les afficher à l'écran en utilisant la fonction "print ()".

Un dataframe est illustré à l'image de sortie dans cet exemple. Ainsi, lorsque la fonction de fusion rejoint les deux cadres de données, nous pouvons voir que seules les valeurs dont les adresses d'index sont affichées. Les deux dernières lignes de la deuxième Dataframe et la quatrième rangée de la première dataframe n'ont pas pu être affichées car leurs adresses d'index ne correspondaient pas. La taille du cadre de données que nous avons maintenant est de trois après avoir utilisé la fusion sur l'index.

Exemple 2: Pour combiner deux dataframes en fonction de leurs index, utilisez la fonction join ().

Il y a des situations où la fusion de deux dataframes produit un dataframe avec un modèle d'index qui ne répond pas à nos exigences. Nous voulons modifier l'index qui résulte de la fusion. Lors de la fusion des dataframes, nous réinitialiserons l'index pour cette raison. La moindre quantité de contrôle est possible avec cette fonction basée sur une colonne ou un index partagé, les lignes des deux tables seront jointes.

Pour notre deuxième exemple, qui est similaire au premier, ce programme a deux cadres de données «DF1» et «DF2». Nous avons deux colonnes «noms» et «marques» dans le premier dataframe. Les valeurs que nous avons dans la première colonne sont «Emma», «Watson», «Jhon», «Lilly», «Edward», «Noah», «Smith» et «Enna» et les valeurs de la colonne «Marques» sont «25», «20», «14», «16», «27», «20», «12» et «15». Après cela, nous avions une liste d'index «A», «B», «C», «D», «E», «F», «G» et «H». De même, il y a deux colonnes dans le deuxième «sujet» et «Remarques» de données de données et «Remarques». Dans la colonne «Sujet», nous avons une liste de sujets qui comprend «OOP», «PF», «Python», «Java», «PHP» et «Calculus» et nous avons une liste de commentaires dans la colonne «Remarques» qui sont soit «passer» ou «échouer». La liste des index pour la seconde dataframe est «A» «C», «D», «G», «M» et «N».

Ensuite, sur la base des index des deux dataframes, nous les fusionnons en utilisant la technique «join ()». La stratégie de jointure fonctionne mieux lors de la liaison. En plus de nous permettre de fournir des colonnes autres que l'index pour rejoindre pour les deux dataframes, la technique de fusion est plus flexible. Il fusionnera DF1 et DF2 après avoir fait correspondre l'index de DF2 avec l'index de DF1, il affiche le «Nan» sur cette ligne de DF2 pour ceux dont les index ne correspondent pas.

Trois données de données peuvent être vues dans l'image résultante. Les deux premières données "DF1" et "DF2" sont celles que nous avons créées. Nous pouvons voir que le troisième DataFrame utilise la fonction «join ()» pour combiner les dataframes supérieurs et inférieurs en fonction de leurs index. Ceux dont l'index ne correspond pas ont été affichés «nan» là-bas.

Conclusion

Le DataFrame est combiné à l'aide de la technique Pandas «Merge ()». Les colonnes des deux dataframes sont combinées pendant le processus de jonction connu sous le nom de fusion. Se joindre à, des index ou une combinaison des deux est également soutenu par la fusion. Cet article a couvert le fonctionnement des fonctions «Joins ()» et «Merge ()» dans la bibliothèque Pandas Python. Vous pouvez facilement rejoindre deux données de données en utilisant leurs emplacements d'index en utilisant les méthodes mentionnées ci-dessus, et vous avez également appris à implémenter les procédures de jointure.