Les pandas fusionnent sur plusieurs colonnes

Lena Dupuy

Pandas est essentiellement un package Python qui est fréquemment utilisé pour travailler avec des collections de données. Il s'agit d'une open source qui pourrait être utilisée dans des tâches précises d'apprentissage automatique. De plus, les tableaux multidimensionnels sont pris en charge. Les principales caractéristiques des pandas sont l'alignement des données et l'ensemble de données remodeler. Il pourrait être construit sur le langage de programmation Python utilisé avec l'open source.

Fusionner la méthode de la colonne multiple ()

Il existe différentes techniques pour faire fonctionner les ensembles de données. La méthode de fusion est l'une d'entre elles. Plusieurs colonnes de deux ou plus deux frères de données peuvent être fusionnées pour maintenir les données dans le bon sens. Chaque fois que nous devons fusionner deux pandas de données sur plusieurs colonnes, nous utilisons les «pandas.Méthode Merge () ”. C'est un moyen efficace pour le data scientist car il pourrait gagner du temps pour maintenir la base de données d'une meilleure manière. Pour améliorer la fidélité du code, nous devons fusionner nos dataframes dans les pandas parce que deux dataframes peuvent avoir différents types d'informations sur le même élément et ils peuvent avoir des segments égaux majeurs.

Dans notre article, nous examinerons comment nous pouvons fusionner les multiples colonnes de dataframes en utilisant les «pandas.Méthode Merge () ”. Si nous voulons fusionner les ensembles de dataframe sans aucune colonne de clé, il fusionne toutes les colonnes communes dans le dataframe. Mais il remplace chaque colonne commune par une seule colonne à partir des deux ensembles de données.

Syntaxe:

Exemple 1: Affichage de la méthode Merge () sur plusieurs colonnes avec une colonne similaire en pandas de deux dataframes

Ici, nous regardons la fusion de plusieurs colonnes dans DataFrames. Nous utilisons rarement la technique de «fusion» pour combiner deux dataframes. Maintenant, nous créons nos deux dataframes. Tout d'abord, nous importons les pandas open source comme «KD». Ensuite, nous créons notre premier DataFrame en utilisant le «KD.DataFrame "et l'a nommé" CD1 "qui déclare les trois variables qui sont" M "," K "et" A ".

Fondamentalement, «M», «K» et «A» sont les trois colonnes du DataFrame «CD1». Les valeurs qui sont affectées à la variable de colonne «M» sont «10», «10», «20», «20» et «30». Les valeurs attribuées à «K» sont «10», «10», «20», «20» et «20». Les valeurs attribuées à la variable «A» sont «130», «90», «120», «50» et «50». Ici, notre premier DataFrame «CD1» est créé. Maintenant, revenez au deuxième DataFrame qui est nommé «CD2» qui a trois colonnes en déclarant trois variables «M», «K» et «N». Les valeurs attribuées à «M» sont «10», «20», «20», «20» et «30». Les valeurs attribuées à la variable «K» sont «10», «10», «10» «20» et «20». Et les valeurs attribuées de «n» sont «150», «160», «170», «180» et «130». Ici, notre DataFrame "CD2" est créé.

Maintenant, nous arrivons à notre fonction principale «KD.Merge () ”que nous avons appliqué pour fusionner les multiples colonnes de notre DataFrame. Ici, nous appliquons le paramètre «gauche» à nos colonnes «m» et «k» car elles sont similaires dans les deux dataframes. Après cela, nous appliquons simplement notre fonction «print ()» pour afficher la «fusion» de deux colonnes. Dans cet exemple, nous discutons de la «fusion» de deux colonnes dans «CD1» et «CD2» de données de données avec des colonnes similaires qui sont «M» et «K». Il fusionne simplement les deux colonnes similaires des différentes dataframes.

Maintenant, nous discutons de la sortie de notre code. La première colonne qui commence de «0» à «4» sont les numéros d'index. Comme la colonne «M» est similaire dans les deux dataframes, elle est fusionnée et affichée une fois avec des valeurs qui sont «10», «10», «20», «20» et «30». Après cela, la colonne suivante affichée est «K» qui est également une colonne similaire. Il est également fusionné et illustré une seule fois avec les données de «10», «10», «20», «20» et «20». Les différentes colonnes des deux dataframes sont «a» et «n» qui sont affichées le long d'eux. Les valeurs de cette colonne similaire «A» affichée sont «130», «90», «120», «50» et «50». La dernière colonne affichée dans la sortie est «n» avec des données qui sont «150», «150», «180», «180» et «130».

Des colonnes similaires sont fusionnées sur le côté gauche en raison de l'application de la méthode «gauche». Les autres colonnes non communs sont affichées à droite par défaut. Comme les colonnes «M» et «K» étaient similaires dans les deux dataframes, elles peuvent être affichées une fois dans la sortie après la mise en œuvre du «pandas.Méthode Merge () »avec les colonnes restantes« A »et« N ».

Exemple 2: Affichage de Merge () sur plusieurs colonnes avec des noms distincts dans deux dataframes

Maintenant, nous discutons de la fusion de plusieurs colonnes ayant des noms de colonnes différents dans cet exemple. Dans ce cas, nous importons la bibliothèque du panda sous le nom de «FB». Tout d'abord, nous créons nos données de données comme «PK1» et «PK2». Le dataframe «pk1» déclare avec trois noms de variables qui sont «sujets», «charges» et «time_period» qui agissent comme des colonnes. Les valeurs stockées dans des «sujets» sont «Web», «grammaire», «social», «électronique» et «TIC». Les valeurs de données stockées dans des «frais» de colonne sont «10000», «20000», «30000», «40000» et «50000». La dernière colonne du «PK1» Dataframe est «Time_period» qui stocke les valeurs de «4hrs», «5hrs», «6hrs», «5.5 heures »et« 5h ».

Le deuxième dataframe nommé «PK2» a trois colonnes qui sont des «sujets», des «accusations» et du «centile». La valeur que nous attribuons aux «sujets» est «TIC», «grammaire», «social», «électronique» et «base de données». Dans la deuxième colonne «Charges» du DataFrame, nous attribuons les valeurs de «10000», «20000», «30000», «40000» et «50000». La dernière colonne «centile» stocke les valeurs qui sont «5%», «10%», «20%», «10%» et «5%». Après avoir créé les dataframes, nous les affichons simplement à l'aide de la fonction «print ()».

Lorsque nos données de données sont créées, nous appliquons l'implémentation des «pandas.Fonction Merge () ”. Nous fusions le premier Dataframe «PK1» ainsi que le deuxième DataFrame «PK2». Ici, nous voulons fusionner les différentes colonnes de DataFrames, nous utilisons donc les paramètres de "Left_on" et "droite_on". Nous utilisons ces paramètres sur la colonne des «sujets» des deux dataframes. Après cela, les deux dataframes sont fusionnés et nous l'affichons simplement par la fonction «print ()».

Maintenant, jetez un œil à notre sortie du code respectif. Comme nous pouvons le voir dans notre affichage de sortie du premier index de «0» à «4», il affiche notre premier enfance de données de «PK1» des premières colonnes «Sujets» qui contiennent «Web», «Grammaire», «Social» , «Électronique» et «TIC». La deuxième colonne «charge» contient les valeurs numériques de «10000», «20000», «30000», «40000» et «50000. La troisième colonne «Time_period» contient les valeurs «4hrs», «5hrs», «6hrs», «5.5 heures »et« 5h ».

Ensuite, il affiche les données de la dataframe «PK2» qui contient également trois colonnes: «sujets», «charges» et «centile». La colonne «Sujet» affiche «TIC», «Grammer», «Social», «électronique» et «base de données». La colonne «Charge» affiche ses valeurs de «10000», «20000», «30000», «40000» et «50000». La troisième colonne «centile» affiche des données de «5%», «10%», «20%», «10%» et «5%».

Enfin, après avoir appliqué les «pandas.Fonction Merge () ”, il combine les données des deux cadres. Par défaut, il fusionne la colonne «Sujet» des deux dataframes avec des valeurs similaires et les affiche avec les multiples colonnes différentes des deux DataFrames. Après la fusion des deux dataframes, nous affichons les cinq colonnes différentes fusionnées qui sont des «sujets», «charges_x», «time_period», «charges_y» et «centile» ainsi que toutes les données que nous attribuons.

Conclusion

Nous avons décrit comment combiner les multiples colonnes de cet article. Nous en avons discuté en utilisant les exemples de fusion de deux dataframes qui contiennent à la fois des colonnes similaires et différentes. Pour fusionner les colonnes similaires, nous utilisons simplement le simple «KD.Fonction Merge () ”et il fusionne la colonne similaire par défaut par la fonction. Pour fusionner les différentes colonnes multiples, nous utilisons le «FB.Merge () "avec les paramètres" Left_on "et" droite_on ".

Docker

Quelle est la différence entre Docker et Podman?

Docker utilise une architecture client-serveur tandis que Podman est un moteur de conteneur de démon...

Jules Colin

Docker

Comment les volumes sont-ils définis dans Docker Compose Yaml?

Les volumes sont définis à l'aide de la touche «Volumes» dans Docker Compose YAML Fichier. Les utili...

Jules Colin

golang

Introduction au langage de programmation de Golang

Golang est un langage de programmation open source développé par Google. Suivez cet article pour app...

Nathan Blanc