Pandas Shuffle

Pandas Shuffle
«Lorsque nous devons réorganiser une dataframe, le module Panda de Python nous offre plusieurs techniques pour mélanger ses lignes. Les données sont mélangées au hasard à l'aide de la méthode «Sample ()» en utilisant son paramètre «FARC = 1». Les lignes de DataFrame peuvent être mélangées sans modifier la colonne d'index à l'aide de "reset_index (drop = true)". Pour créer une nouvelle trame de données avec l'index réinitialisation, nous pouvons utiliser la fonction "réinitialiser _index ()". Ceci est utile si l'index doit être traité comme une colonne ou s'il doit être réinitialisé à la valeur par défaut avant le processus suivant."

La syntaxe pour le mélange Pandas Dataframe

La syntaxe pour le mélange Pandas DataFrame et l'index de réinitialisation

Exemple 1: mélange des lignes du dataframe en utilisant la méthode d'échantillon ()

Dans cette illustration, nous utilisons la fonction «échantillon ()» pour récupérer des éléments aléatoires de l'axe d'un objet. Nous pouvons mélanger les lignes de notre dataframe en utilisant la fonction «échantillon ()» pour «mélange» les lignes.

Alors, commençons par notre premier exemple. Pour implémenter notre code, nous utilisons ici l'outil «Spyder». La première étape consiste à importer la bibliothèque du panda en tant que «PD». Nous créons maintenant une dataframe après l'importation de la bibliothèque. Le titre du DataFrame dans ce code Nous avons «Student». Ce dataframe «Student» a trois colonnes «nom», «marques» et «Remarques». Il y a des valeurs stockées dans chacune de ces trois colonnes. Les noms de plusieurs étudiants sont «Thomas», «Enna», «Ponting», «Watson» et «Emma» dans la colonne «Nom». Dans la colonne «Marks», nous avons les marques de l'étudiant «469», «202», «430», «190» et «398». La troisième colonne, «Remarques», contient la liste des commentaires, «passer» ou «échouer».

Pour générer ce DataFrame, nous utilisons «PD. trame de données". Pour le moment, le DataFrame est présenté à l'écran à l'aide de la fonction «print ()».

Maintenant que nous avons atteint la section cruciale du code, nous devons mélanger les lignes de notre dataframe. En mélange, les algorithmes de mélange de données peuvent potentiellement conserver des liens logiques entre les colonnes tout en réorganisant les données. Il mélange les données d'un ensemble de données à l'intérieur d'un attribut au hasard. Ici, nous utilisons la méthode «échantillon ()» avec son paramètre «frac = 1». Ce «frac = 1» est utilisé pour mélanger l'ordre de la ligne et est utilisé pour récupérer toutes les valeurs d'élément de DataFrame après le mélange.

Cette méthode d'échantillonnage () mélangera toutes les lignes de DataFrame, et elle apparaîtra comme une nouvelle mousse de dataframe. Maintenant, nous affichons une fois de plus un dataframe après avoir mélangé la ligne à l'aide de la fonction "print ()".

Vous pouvez voir la sortie du programme à l'écran après l'exécution du code en cliquant sur le fichier d'exécution sur l'outil. Dans notre image de sortie, deux dataframes sont visibles. La première dataframe est formée en y ajoutant des colonnes et des valeurs, et la deuxième dataframe s'affiche après avoir mélangé les lignes en utilisant la méthode "Sample ()" avec son paramètre "Frac = 1".

Si nous comparons les premier et deuxième Dataframes, il est évident que les lignes du deuxième cadre de données sont réorganisées. Leur indice a également été mélangé. L'index du premier Dataframe commence à «0» et se termine sur «4», et l'index du deuxième Dataframe est réorganisé pour inclure «2», «4», «0», «3» et «1».

Exemple 2: mélange des lignes du dataframe sans apporter de modifications dans la colonne d'index

Dans ce cas, les lignes de DataFrame sont mélangées, mais l'index de DataFrame ne change pas. L'index au-dessus des lignes a également été mélangé dans l'exemple précédent, comme on peut le voir, mais comme nous utilisons «RESET INDEX (DROP = true)» ici, l'index ne sera pas réarrangé.

Commençons d'abord notre code; Nous avons importé la bibliothèque du panda sous le nom de «PD», l'étape suivante consiste à construire un dataframe. Le DataFrame est appelé «données» dans son nom. Il y a trois colonnes dans ce «nom», «marques» et «sujet» de données de données, «marques» et «sujet». Les trois colonnes contiennent des valeurs dans chacun d'eux. Dans la colonne «Nom», nous avons quelques noms d'étudiants «Noah», «Pitbul», «Jack», «Arthur» et «George». La deuxième colonne, «Marks», contient une liste de marques qui comprend «460», «304», «431», «192» et «398» et dans le sujet de la troisième colonne, nous avons «Python», « Java "," OOP "," PF "et" Calcul ". Maintenant, «PD.DataFrame "est utilisé pour créer le DataFrame, et pour afficher le DataFrame, nous utilisons la fonction" print () ".

Afin de mélanger les lignes de DataFrame, nous utilisons maintenant la méthode «Exemple ()» avec le paramètre frac = 1; Cependant, dans ce cas, nous utilisons également «Réinitialiser l'index (drop = true)», qui ne mélangera pas l'index qu'il mélange uniquement les lignes du dataframe. L'index peut être réinitialisé avec le «0», «1», «2», «3», etc. par défaut. Index utilisant la méthode reset_index (). Si vous souhaitez éviter de conserver les index précédents dans la colonne «Index» par défaut, utilisez l'argument DROP. Maintenant, nous affichons à nouveau le DataFrame après avoir mélangé les lignes en utilisant la fonction «print ()».

Deux dataframes sont affichés dans cette image de sortie, comme on peut le voir. En utilisant l'argument réinitialisé «index (drop = true)» avec la méthode «Sample ()», nous pouvons voir que les lignes de la deuxième Dataframe sont mélangées, mais ses index ne sont pas modifiés; Cependant, si nous examinons l'exemple précédent, nous pouvons voir que l'index a également été réorganisé parce que l'index de réinitialisation du paramètre (Drop = True) "n'a pas été utilisé.

Exemple 3: Modification de l'ordre de la ligne en utilisant la permutation Numpy avec la méthode Iloc []

En utilisant la technique «Permutation Numpy» et la technique «Iloc []», nous réorganisons le dataframe dans cet exemple. La méthode «permutation» utilise des échantillons aléatoires à partir d'une séquence de permutations pour nous fournir la séquence et renvoie la séquence. Si z est un tableau multidimensionnel, il est mélangé avec son premier index.

Avant d'exécuter le code, nous devons importer deux pandas de bibliothèques en tant que «PD» et Numpy comme «NP». Le suivant consiste à créer un dataframe avec le nom «Données». Dans ce DataFrame, nous avons deux colonnes. La «voiture» est le nom de la première colonne, et le «modèle» est la deuxième colonne. Il y a certaines valeurs répertoriées pour ces deux colonnes. Dans la colonne «Nom», nous avons «Suzuki», «Ford», «Toyota», «Mercedes» et «Honda» et les valeurs de la colonne que nous avons «2011», «2008», «2019», » et «2017». Ce dataframe sera désormais généré par «PD.trame de données".

Ici, nous utilisons la technique «Iloc []» avec la méthode «Permutation ()» et le paramètre d'index, ce qui rend très simple à mélanger les lignes du dataframe. Nous pouvons utiliser la méthode «Iloc []» pour sélectionner une colonne ou une ligne distinctive dans l'ensemble de données donné. En utilisant les valeurs d'index, nous pouvons rapidement obtenir une valeur spécifique à partir d'une colonne ou d'une ligne en utilisant la méthode «Iloc []». Parce que nous utilisons le paramètre «reset_index (drop = true)» ici, l'index de DataFrame ne changera pas. Alors utilisons la fonction «print ()» pour afficher notre dataframe après avoir réorganisé les lignes.

Deux ensembles de données ont été affichés dans la sortie, dont l'un était l'ensemble de données d'origine et l'autre l'ensemble de données mélangé. Ici, nous pouvons voir que les lignes de la deuxième dataframe ont été mélangées et que l'index n'a pas changé. L'index du premier DataFrame commence à partir de «0», tandis que l'index du deuxième Dataframe commence de manière similaire à «0», mais les lignes sont modifiées.

Conclusion

Dans Pandas, il existe de nombreuses méthodes pour réorganiser les données dans les lignes et colonnes du DataFrame. Dans cet article, nous avons utilisé quelques méthodes simples pour mélanger les lignes de Dataframe. Nous avons mélangé la ligne et récupéré toutes les lignes du DataFrame à l'aide de la fonction «Sample ()» avec la méthode paramètre «FARC = true et la méthode« Permutation »avec ILOC []. «Reset_index (drop = true)» est utilisé lorsque nous devons modifier les lignes mais pas l'index du dataframe. Ces stratégies de panda sont simples, et nous pensons qu'en les mettant en œuvre, votre tâche sera facilement gérée.