Pandas fondre

Pandas fondre
Un panda est un cadre statistique adopté par le python. Avant l'invention des pandas, la majeure partie des chercheurs a utilisé Python pour l'agression et la préparation des informations avant de passer à un dialecte plus spécial, comme «R», pour l'équilibre de leur processus. Pandas a offert des séries, qui fournissent une disposition de classement, et DataFrames, qui a une disposition tabulée. Ces deux nouveaux types d'objets visent à stocker des informations qui facilitent les opérations analytiques et élimine la nécessité de transférer des outils. La fonction PANDAS «Melt ()» est utilisée pour décrire un objet DataFrame qui est produit de manière spécifique avec une ou plusieurs colonnes agissant car les identifiants changent dans le format de l'ensemble de données de vaste à long. Seulement deux colonnes sont configurables et les valeurs, tandis que les autres colonnes sont toutes considérées comme des valeurs et non diffatées sur l'axe des lignes. Lorsque Python prend en charge les données explicatives, vous utilisez cette fonction.

Les colonnes de DataFrame, dont chacune peuvent contenir un entier, un numéro à virgule flottante ou une chaîne, sont représentés au niveau de la colonne car il contient de nombreux indices, il est donc par défaut en considérant la non-valeur. Par conséquent, nous faisons fondre les informations en utilisant ce niveau de colonne. Le nom de la variable est une représentation du nom de variable spécifique qui est utilisé pour faire fondre les colonnes. Cet adaptable comprend généralement une valeur scalaire et a la valeur par défaut de non car elle utilise la variable utilisée dans cette colonne spécifique pour faire fondre le dataframe.

La syntaxe pour la fonction Melt ()

«Value_vars» sont des représentations des colonnes non pavées existantes. La majorité des colonnes sont retournées et ne sont pas définies comme «id_var» si les noms de colonne ne sont pas indiqués. Un tuple ou ndarray de liste peut être utilisé comme paramètres de valeur. Toutes les sections utilisées comme variables d'identifiant sont représentées par la variable «id_vars». Le dataframe qui doit être alloué en pandas est indiqué par le cadre.

Exemple n ° 1: en utilisant la fonction de fusion, vous pouvez passer plusieurs colonnes comme paramètre Value_Vars

En utilisant des pandas dans Python, nous pouvons restructurer les données sous une forme plus conviviale pour simplifier le traitement des données de table. La fonction impérative «Melt ()» doit être exécutée. Un dataframe est non diffusé de la grande version au format habituel à l'aide de «Pandas.fondre()". Initialement, nous créons notre dataframe. DataFrame est utilisé pour stocker des informations dans un format bidimensionnel. Il est identique à un tableau de ces données est stocké en lignes et colonnes. Les enregistrements sont représentés par les lignes et les fonctionnalités sont représentées par des colonnes.

Dans ce cas, le nom de notre trame de données est «D1» qui a trois colonnes. «Nom» est la première colonne de notre trame de données et est en outre inclus une liste de certains noms: «Thomas», «Lily» et «Henry». La deuxième colonne que nous avons est «l'âge» qui contient «25», «29» et «31». Et dans la troisième colonne, «profession», nous avons «ingénieur», «médecin» et «comptable». En utilisant «PD.Dataframe »Nous afficherons le dataframe à l'écran.

Maintenant, ajoutons la fonction «Melt ()» à notre application. Les paramètres «id var» de la fonction «Melt ()» et «Value Var» ont été utilisés. Pour utiliser une colonne ou des colonnes comme variables d'identifiant, utilisez «id _var» et le «value_var» qui est le deuxième paramètre utilisé dans cet exemple pour définir où le contenu serait fondu et stocké dans les lignes supplémentaires. Ici, nous utilisons un "int_var" dans une seule colonne et une "valeur_var" dans de nombreuses colonnes. Nous utilisons «Value_var» dans les colonnes «Age» et «Profession» et «ID_VAR» dans la colonne «Nom». «PD.Melt ”est utilisé pour générer le dataframe et« imprimer (df_melted) »affichera le dataframe à l'écran.

Deux dataframes sont visibles dans l'image de sortie du programme. En utilisant le «PD.Fonction DataFrame », nous avons généré la première trame de données dans laquelle nous avons trois colonnes« nom »,« âge »et« profession ». En appliquant les paramètres «id_var» et «valeur _var» au «PD.Méthode melt () ”, la deuxième dataframe est générée. "ID_VAR" est appliqué dans une seule colonne qui est "nom". Il signifie que la colonne sera montrée exactement telle qu'elle est avec ses valeurs et que le «Value_Var» est utilisé dans deux colonnes «Age» et «Profession». Il crée deux colonnes dans le DataFrame, l'une est «variable» et l'autre est «valeur» dans la colonne de valeur, le nom de la colonne est affiché.

Un outil crucial qui choisit des lignes et des colonnes spécifiques de données à partir d'une dataframe est appelée un index Pandas. Son travail consiste à configurer les données pour un accès et une organisation rapides. Il est également décrit comme un sous-groupe. La valeur individuelle de l'index est appelée étiquette et les valeurs sont écrites en gras dans l'index. La taille de l'index de la dataframe initiale est «3», qui varie de «0 à 1», et lorsque les paramètres sont appliqués, la taille de l'indice est «6» qui varie de «0 à 5».

Exemple 2: En utilisant la fonction de fusion, vous pouvez passer plusieurs colonnes comme paramètre int_vars

Voir ce qui se passe lorsque vous spécifiez plus d'une colonne pour l'option ID_VARS. Semblable au dernier exemple, celui-ci applique "id_var" à plusieurs colonnes tandis que "Value_var" est appliqué à une seule colonne. Dans le programme précédent, "Value_var" a été appliqué à plusieurs colonnes tandis que "id_var" a été appliqué à une seule colonne.

La toute première chose que nous faisons est de construire un dataframe à trois colonnes. Le nom de la colonne est «nom», «marques» et «sujet». Les noms qui sont dans la première colonne sont «Ava», «Isla» et «Leo». Dans la deuxième colonne, nous avons la liste des notes «45», «22» et «31». Pour la troisième colonne, nous avons le nom du sujet, y compris «Management», «OOP» et «Java». Maintenant, «PD.DataFrame "générera le DataFrame et" Print (DF) "affichera le dataframe à l'écran.

Incorporons maintenant la méthode «Melt ()» dans notre code. Les arguments «id_var» et «valeur _var» de la fonction «Melt ()» ont été utilisés. Le "id_var" est utilisé en deux colonnes. «Nom» et «Marks» et «Value_var sont utilisés dans une colonne« Sujet ». Pour créer le nouveau DataFrame en utilisant les informations de l'ancienne DataFrame, utilisez «PD.fondre". Maintenant, le DataFrame sera affiché à l'écran par «Print (DF fondu)».

Le résultat de la fonction «Melt ()» avec ses deux arguments qui sont «id_var» et «value_var» s'affiche dans la sortie. En appliquant «id_var» sur les deux colonnes «nom» et «marques», il affichera ses valeurs telles qu'elle est et comme nous avons appliqué «Value_var» à la colonne «Sujet». Ensuite, il est divisé en ces deux colonnes «variable» et «valeur». Dans la colonne «variable», il affiche le nom de la colonne «Sujet» et dans la colonne «valeur», il montre les valeurs de la colonne «Sujet». L'indice est «3» en amplitude, variant de «0 à 2».

Conclusion

La méthode «Melt ()» dans Pandas est un moyen polyvalent de modifier le Pandas DataFrame. Nous avons appris à utiliser la fonction Melt () de Pandas pour convertir un Big DataFrame en une longue, DataFrame en utilisant un cas d'utilisation simple. Vous devez constamment restructurer une section des pièces de notre matériau tout en gardant au moins un segment en place comme indicateur. La fonction «Melt ()» dans Pandas est un outil fantastique pour modifier les données. Si vous gérez beaucoup d'informations économiques et liées à l'argent diverses et que vous les avez besoin dans une forme longue plus conviviale à la base de données, il est particulièrement utile.