Échantillon aléatoire de pandas

Lena Martinez

Il y a beaucoup de bibliothèques que «Python» fournit. Lorsque nous discutons des «pandas», c'est aussi la bibliothèque de «Python». Il nous aide dans différents domaines comme nous utilisons cette bibliothèque en sciences des données, ou nous pouvons également utiliser cette bibliothèque «pandas» dans les activités d'apprentissage automatique. Il aide également à la gestion et à la manipulation des données. Les «DataFrames» dans «Pandas» nous permettent d'organiser et de stocker les données en lignes et colonnes, ou nous pouvons également dire que dans la forme de la table. Nous pouvons sélectionner certaines lignes comme exemples de données de DataFrame. À cette fin, nous avons utilisé la fonction «échantillon ()» des «pandas». Cette fonction nous aide à générer une ligne ou une colonne aléatoire à partir du dataframe. Nous pouvons utiliser cette fonction pour obtenir une seule ligne ou une colonne comme échantillon, ou nous pouvons également définir certains nombres dans cette fonction pour obtenir plusieurs lignes comme échantillon. Nous expliquerons cette méthode «échantillon aléatoire ()» et expliquer son travail en détail dans ce tutoriel.

Syntaxe

Trame de données.échantillon (n = valeur, frac = valeur, remplacer = false / true, poids = valeur, random_state, axe)

Dans son paramètre «N», nous définissons les nombres de l'échantillon aléatoire que nous voulons obtenir de DataFrame. Si nous n'avons pas ajouté de nombre ici, il n'obtiendra qu'une seule ligne aléatoire comme l'échantillon de cette dataframe spécifique. Dans le paramètre «Frac», nous pouvons définir le pourcentage des lignes que nous voulons obtenir; Si nous définissons la frac.7 ”, alors il donnera« 70% »des lignes du dataframe. N'oubliez pas que nous ne pouvons pas placer le paramètre «Frac» avec le paramètre «N». Si nous définissons le paramètre «n», alors nous n'ajoutons pas simultanément le paramètre «Frac». Nous n'utilisons que l'un d'eux. Après cela, nous avons le paramètre «Remplacer» dans lequel nous ajoutons «vrai» ou «faux». Si nous le définissons comme «vrai», alors cela peut donner la même ligne plus d'une fois. Nous pouvons également définir trois autres paramètres, qui sont des «poids», «random_state» et «axe». Maintenant, nous utilisons cette méthode «Sample ()» dans le code «Pandas».

Exemple 01

Le logiciel que nous utilisons pour générer ce code «pandas» est le logiciel «Spyder». Notre première tâche tout en faisant ce code «pandas» est d'importer les bibliothèques. La bibliothèque que nous devons importer est la bibliothèque «Pandas», que nous importons à l'aide du mot-clé qui est le mot clé «Importer». Nous avons également défini les «pandas en tant que PD» après avoir écrit «l'importation». La tâche suivante consiste à développer le dataframe, et nous construisons «lmn_company_df» ici. Ce dataframe est construit parce que nous avons utilisé le «PD.DataFrame () ”, qui aide à générer le DataFrame dans" Pandas ".

Nous y entrons également certaines colonnes, et ces colonnes contiennent également des données. Nous entrons d'abord le «lmn_person», qui est la première colonne de ce dataframe. Il contient «Jasper, Milli, Hayes, Easton, Bromley, Diego et Logan». Ensuite, "LMN_CODE" est la colonne suivante ici et nous ajoutons "LMN122, LMN124, LMN125, LMN126, LMN127, LMN128 et LMN129" dans cette colonne. Le «LMN_YEAR» est la troisième colonne ici, et nous insérons «mai 2008, février 2008, juin 2009, avril 2009, septembre 2010, juin 2015 et juillet 2009». Le "LMN_SALEUNIT" est répertorié après "LMN_YEAR". Il contient plusieurs unités de vente: «50, 44, 39, 76, 85, 90 et 53».

Maintenant, nous affichons ce DataFrame à l'aide de «print ()»:

Lorsque nous appuyons sur l'icône «Run» du logiciel «Spyder», nous obtenons rapidement la sortie de nos codes. Le résultat du code précédent est fourni ici, dans lequel vous pouvez voir uniquement le dataframe affiché. Maintenant, nous appliquerons la méthode «Exemple ()» de ce code pour obtenir l'exemple de ligne de ce DataFrame.

Nous ajoutons d'abord le nom de DataFrame avec cette fonction «Sample ()». Ici, nous n'avons ajouté aucun paramètre à cette fonction. Il ne donnera donc qu'une seule rangée aléatoire de ce DataFrame. Il imprime également cette ligne aléatoire sur le terminal car nous avons inséré cette fonction «échantillon ()» à l'intérieur de la «print ()».

La ligne que nous obtenons après avoir appliqué cette fonction «échantillon ()» est rendue ci-dessous. Notez qu'il sélectionne la ligne au hasard comme l'échantillon de ce DataFrame.

Exemple 02

Le «LMN_COMPANY_DF» est là, et, maintenant, nous définissons la valeur de «N» comme paramètre de cette fonction «Sample ()». Lorsque nous utilisons la méthode «Sample ()», nous y ajoutons également «n» et définissons «3» comme valeur de «n». Cela sélectionnera au hasard trois lignes de l'échantillon «lmn_company_df».

Ici, le DataFrame complet contient sept lignes et quatre colonnes. Ensuite, il rend trois lignes aléatoires, que nous obtenons après avoir appliqué la fonction «échantillon ()» et réglé son paramètre «n» égal à «3». Il renvoie les lignes en fonction de cette valeur «n».

Exemple 03

Le "Vendor_DF" est maintenant construit, et la colonne "Vendor_name" est la première colonne du "Vendor_DF". Il contient «Maverick, Julian, Felix, Jasper, Chloé, Freya, Easton, Diaa et Milli». La chronique «Vendor_Country» vient après cela, qui contient «l'Angleterre, l'Amérique, Londres, le Canada, l'Allemagne, la France, l'Algérie, l'Angleterre et l'Allemagne». Après cela, "Vendor_Address" est ajouté et insérez "XYZ123, MNO890, JKL678, QWE345, RTY678, DFG456, CVB234, JHG876 et MNB543".

Ensuite, nous avons la colonne «project_code», qui contient «p123, p234, p345, p456, p678, p890, p098 et p765». La dernière colonne est nommée «ventes», et il contient également des enregistrements de vente, qui sont «80000, 50000, 75000, 40000, 55000, 85000, 97000, 80000 et 90000». Maintenant, nous imprimons l'intégralité de "Vendor_DF" en utilisant "print ()". Après avoir affiché la méthode "Venfor_DF", nous utilisons la méthode "Sample ()", et cette fois, nous définissons le paramètre "Frac" ici et ajoutez "0.5 ”comme valeur. Il sélectionnera 50% des lignes aléatoirement à partir de ce DataFrame et les affichera également comme nous avons inséré cette méthode «Sample ()» dans la méthode «print ()».

Le DataFrame affiche toutes les lignes et colonnes, puis elle affiche la moitié ou 50% des lignes. Il sélectionne ces lignes au hasard et les affiche sur le terminal car nous définissons le paramètre «Frac» de la fonction «Sample ()» égal à «0.5 ”. Vous pouvez également noter dans ce code que nous n'avons pas ajouté le paramètre «N» avec ce paramètre «Frac».

Exemple 04

Dans ce code, nous ajoutons deux paramètres dans la méthode «Exemple ()», et ce sont «N» et «Remplacer». Nous ajoutons d'abord «5», qui est la valeur de «n», donc il retournera cinq lignes, puis nous définissons «False» comme valeur du paramètre «Remplacer». Lorsque nous définissons «Faux» ici, il ne donnera plus la même ligne. Il ne fait que des lignes uniques et ne dupliquent pas une ligne.

Il rend cinq rangées ci-dessous, et toutes sont des lignes uniques. Il sélectionne ces lignes au hasard à partir de cette dataframe et les affiche dans ce résultat.

La valeur de «n» n'est pas supérieure au nombre de lignes. Comme vous pouvez le noter, cette dataframe contient neuf lignes. Si nous définissons la valeur de «n» supérieure à «9», alors il renverra un message d'erreur. Ici, nous ajoutons «10» comme valeur de «n». Dans l'image suivante, il affiche ce qui se passe lorsque nous exécutons ce code:

Ce message d'erreur est généré sur le terminal car ce dataframe ne contient que neuf lignes, et la valeur de «n» est supérieure au nombre de lignes de la dataframe.

Conclusion

Ce tutoriel est tout au sujet de «l'échantillon aléatoire Pandas». Nous avons expliqué ce concept en profondeur dans ce tutoriel. Nous avons expliqué sa syntaxe, et nous avons également utilisé la méthode «échantillon ()» dans notre code «pandas». Nous avons fait des exemples en plaçant différents paramètres dans cette méthode «échantillon ()» et avons discuté en détail de tous les paramètres de cette méthode «échantillon ()». Nous avons montré comment il renvoie les lignes du DataFrame comme l'échantillon en les sélectionnant au hasard après avoir appliqué cette fonction «Sample ()». Nous avons également discuté du message d'erreur dans ce tutoriel tout en utilisant cette fonction et avons expliqué pourquoi ce message d'erreur se produit.

Docker

Quel est le but d'un docker-compose.Fichier YML dans Docker?

Le but principal d'un «compose docker.Le fichier yml »doit simplifier le processus de déploiement et...

Lola Bonnet

Windows OS

Quelle est la différence entre Windows Top 10 Home et Pro

La version «Pro» est destinée aux utilisateurs professionnels et a plus d'outils administratifs, tan...

Julien Dumas

Comment créer un cadre de données vide R

Tutoriel sur les différentes approches pour créer une dataframe vide à l'aide des données.Fonction (...

Lena Dupuy