Pandas regex

Pandas regex

Nous pouvons créer une série ou un dataframe dans «pandas» et effectuer beaucoup plus de tâches en utilisant les fonctions ou les méthodes de «pandas». Comme nous le savons, nous stockons beaucoup de données dans les dataframes et séries «pandas». Nous pouvons également rechercher les modèles en pandas en utilisant le regex. Pour identifier le modèle dans une chaîne à l'intérieur d'une série ou de la dataframe, de nombreuses fonctions «pandas» sont disponibles que le regex accepte. Nous pouvons facilement extraire, filtrer ou nettoyer les données en appliquant diverses méthodes que le regex nous permet. Nous utiliserons les différentes méthodes de «pandas» que le regex nous permet d'utiliser dans le code «pandas» et nous expliquerons en détail le «regex» dans «pandas» dans cet article.

Exemple 1:

Nous effectuons maintenant les codes «Pandas» dans l'outil «Spyder». Nous importons ici la bibliothèque «Pandas» comme «PD» car nous travaillons avec la bibliothèque «Pandas». Ensuite, nous développons le «Update_df» ici qui est le DataFrame. La méthode «pandas» «dataframe ()» aide à la création du dataframe. Ensuite, nous plaçons le «dict» et ajoutons les noms du «nom» qui sont «Zane, Santiago, Silas, Roman, Milo, Samuel et Hayes». Après cela, nous avons les «gardiens» dans lesquels nous placons «Leif, Jasper, Julian, Laken, Jude, Ezra et Briar». Les «marques» viennent ensuite qui contient «89, 23, 33, 99, 56, 90 et 66». Ensuite, les «sujets» contient «la biologie, la zoologie, la chimie, l'éthique, la botanique, le GK et la foresterie».

Nous rendons également la méthode «Update_df» en utilisant la méthode «print ()». Tout d'abord, nous affichons cette dataframe, puis allons de l'avant.

Si vous travaillez sur l'application "Spyder", vous devez appuyer sur les touches "Shift + Entrée" ou l'icône "Run" de cette application. Après cela, la sortie est indiquée sur le terminal. Ici, nous obtenons simplement le dataframe que nous avons généré précédemment. Le DataFrame est également affiché dans ce qui suit qui apparaît sur le terminal après l'exécution des codes.

Maintenant, nous utilisons le «str.Méthode Match () ”ici. Ce «str.Match () "La méthode aide à filtrer les lignes dans le dataframe" pandas ". Nous plaçons d'abord la variable «regex1» et ajustez le «S.*" là. Après cela, nous utilisons le «str.correspondre()". Pour cela, nous ajoutons d'abord le nom de DataFrame, puis mettons le support carré. À l'intérieur de ce carré, nous plaçons le nom de DataFrame «Updated_df» avec le nom de la colonne «Nom». Ensuite, nous avons mis le «str.Match () ”dans lequel nous ajoutons le nom de variable que nous avons précédemment initialisé.

Maintenant, il vérifie toutes les valeurs présentes dans la colonne «Nom» et filtrez ces lignes où le nom commence à partir de «S». Après cela, nous initialisons la variable «regex2». Cette fois, nous l'initialisons avec «J.* ". Nous utilisons cette variable dans le «str.Fonction MATCH () ”pour extraire les lignes. Nous appliquons le «str.MOTHE () "sur la colonne" Guardians "et il extrait ces lignes où les noms Guardian commencent par" J ". Nous ajoutons les deux méthodes dans «l'impression», les deux résultats sont donc affichés sur le terminal.

La colonne «Nom» dans laquelle le nom commence par «S» est extraite de la dataframe et affiche. Après cela, ces lignes sont filtrées où les noms Guardian commencent par «J» et sont également rendus dans le résultat. Nous filtrons ces lignes en utilisant le «str.Méthode Match () ”.

Exemple 2:

Nous créons le «fréquence_df» ici. Ce "fréquence_df" contient "Taille, Fre_1, Fre_2, Fre_3, Fre_4 et Fre_5". Dans la "taille", nous ajoutons les "FF_1, FF_2, FF_3, FF_4, FF_5, FF_6 et FF_7". Ensuite, dans le «Fre_1», nous avons mis le «21 $, 22 $, 23 $, 24 $, 25 $, 26 $ et 27 $». Maintenant, nous avons «Fre_2», où nous insérons le «31 $, 32 $, 33 $, 34 $, 35 $, 36 $ et 37 $». Nous ajoutons également les «21 $, 42 $, 43 $, 44 $, 45 $, 46 $ et 47 $» dans le «FRE_3». Maintenant, nous avons «Fre_4» et nous placons les «51 $, 52 $, 23 $, 54 $, 55 $, 56 $ et 57 $». Après cela, nous avons mis le «21 $, 81 $, 82 $, 83 $, 84 $, 85 $ et 86 $» dans le «FRE_5».

Maintenant, nous ajoutons le «print ()» dans lequel nous plaçons le «fréquence_df». Nous utilisons ici la méthode «remplacer ()» pour remplacer les données du dataframe. Nous plaçons d'abord la variable «fréquence_df1» qui stocke les données que nous obtenons après avoir appliqué la méthode «Remplace ()» parce que nous utilisons cette variable «fréquence_df1» ici et l'initialisons par la méthode «Remplace ()». Nous mentionnons la «fréquence_df» qui est le nom du DataFrame, puis placons la méthode «Remplace ()» par ce nom de DataFrame. Nous ajoutons le paramètre "FF_" dans le paramètre "TO_REPLACE" de cette fonction. Nous ajustez la valeur qui est «Fre_» dans le deuxième paramètre qui est le paramètre «Valeur».

Ensuite, nous ajoutons le «regex» dans cette méthode qui est le troisième paramètre. Nous ajustez le «vrai». Maintenant, nous passons le «fréquence_df1» au «print ()». Les données que nous obtenons après leur remplacement sont affichées sur le terminal.

Ce résultat montre le premier dataframe avec la valeur «FF_» qui est présente dans la colonne «Taille». Toutes les valeurs «ff_» de ce dataframe sont remplacées par «fre_». Il est également montré dans le deuxième DataFrame qui est le DataFrame mis à jour que nous obtenons après avoir appliqué la fonction «Remplace ()».

Exemple 3:

Maintenant, nous créons une série dans cet exemple en utilisant le «PD.Série () »Méthode et ajoutez la« France, Colombie, Canada, Chine, Porto Rico, Canada et Los Angeles ». Nous enregistrons cette série dans la variable «my_series» et ajoutons cette variable dans le «print ()». Maintenant, nous appliquons le «str.Findall () ”Méthode à cette série pour trouver et extraire la chaîne de la série. Nous plaçons le «itm [0]». Ensuite, nous utilisons le «pour» puis écrivons «itm» après le «pour». Ensuite, placez le mot-clé «in» et le nom de la série avec le «str.Méthode findall () ”. Cela fonctionne comme la boucle et vérifie toutes les valeurs de la série.

Dans le «str.Findall () "Méthode, nous plaçons le" CC "qui vérifie les données de la série et renvoie cette valeur qui commence par la lettre" C "ou" C ". Nous initialisons la variable «données» avec ce «str.Méthode findall () ”. Les valeurs que nous obtenons après avoir appliqué le «str.findall () "à la" my_series "est enregistré dans la variable" Data ". Ensuite, nous avons utilisé le «print ()» dans lequel la variable «données» est ajoutée. Les valeurs que nous obtenons après avoir utilisé le «str.findall () ”à la série s'affiche.

La série complète est affichée ici. Les valeurs de la série qui commencent par le caractère «C» ou «C» sont extraites de cette série et affichées dans ce qui suit:

Exemple 4:

Nous importons les «pandas» ainsi que le «RE» dans cet exemple. Après l'importation des deux, nous générons un DataFrame avec le nom «data_dataframe». Dans ce DataFrame, les colonnes que nous avons ajoutées sont "Column_1, Column_2, Column_3 et Column_4". Le «Column_1» contient «15, 11, 19, 10, 18, 19, 20, 21». Le "Column_2" contient "A, B C, D, E, F, G et H". Ensuite, nous avons le «Column_3» et nous ajoutons également les données qui sont «A, B, C, D, E, F, G et H». La dernière colonne, la «Column_4» contient «ABC (Capital), ABB, AAA (Capital), Yhn, ABC, PLM (Capital), QAZ et YGV (Capital)».

Ensuite, nous rendons ce "data_dataframe". Maintenant, nous plaçons le mot-clé «Def» et définissons la fonction «Clean_Names ()» dans laquelle nous ajoutons le «Column_4». Ensuite, nous utilisons le «si» ci-dessous où nous utilisons la méthode «search ()» de «re» et mettons «(((((((((.* "Comme premier paramètre et" Column_4 "comme deuxième paramètre. Il recherche le support «(» dans les données «Column_4».

Après cela, nous plaçons la «nouvelle» variable et l'initialisons avec la même méthode qui est le «Re.search () ”Méthode et passer les mêmes paramètres. Nous ajoutons également le "start ()" avec cette méthode. Ensuite, nous avons le mot-clé «retour» où nous obtenons les valeurs qui sont stockées dans la «nouvelle» variable et la renvoyons ici. De plus, nous ajoutons «d'autre». Après cela, nous ajoutons un nouveau "Column_4" et ajoutons la fonction "Clean_Names" avec cette "Column_4". Il supprime tous les noms présents dans le support "(" dans le "Column_4". Ensuite, nous utilisons à nouveau «l'impression».

Dans le premier DataFrame, le Column_4 contient les noms qui sont présents dans le support. Dans le dataframe suivant, ces noms qui sont ajoutés entre parenthèses sont supprimés et seules les valeurs de "Column_4" sont affichées:

Conclusion

Nous avons écrit cet article pour expliquer le concept «Pandas Regex» en détail. Nous avons discuté que le «regex» nous permet d'utiliser de nombreuses fonctions pour filtrer les données de DataFrame ou Series dans «Pandas». Nous avons appliqué le «str.MOTHES MATCH () »et« Remplacer () »sur le DataFrame« Pandas ». Nous avons également appliqué le «str.Findall () ”Méthode sur la série dans nos codes. Nous avons importé le package «re» dans le dernier exemple et utilisé sa méthode qui est le «re.search () ”Méthode pour rechercher les données de ce tutoriel.