Pandas sélectionner la ligne par valeur

Pauline Giraud

Les lignes d'un Pandas Dataframe peuvent être sélectionnées en fonction de plusieurs critères ou valeurs de colonne. Cet article fournit des explications et des exemples pour les nombreuses approches pour y parvenir
Consultez les méthodes annexées à cet effet:

Indexation booléenne
propriété loc []
Méthode Query ()
Méthode isin ()

Explorons la mise en œuvre pratique de ces techniques.

Création d'un dataframe

Pour la mise en œuvre des exemples, nous utilisons l'outil Spyder. Après avoir lancé l'outil, nous avons importé la bibliothèque requise qui est «pandas» et l'a aliasée «PD». Maintenant, en utilisant la fonction Pandas, nous allons d'abord créer un exemple de dataframe qui sera utilisé dans toutes les illustrations de ce guide.

Nous avons invoqué la méthode Pandas «PD.DataFrame () ”qui démarre le processus de création de DataFrame. Nous l'avons initialisé avec 4 colonnes «marques», «ST_NAME», «ST_ID» et «Points». Chaque colonne stocke une liste de valeurs définies. La colonne «Marks» a les valeurs «100», «92», «79», «92», «73», «82» et «90». Pour la colonne «ST_NAME», nous avons des valeurs de cordes «Adam», «Albert», «Elsa», «Ronald», «Maya», «George» et «Jessica». La colonne «ST_ID» détient des valeurs que nous avons définies comme «10», «11», «12», «13», «14», «15» et «16». Les valeurs «14», «13», «14», «12», «11», «10» et «9» ont été stockées dans la colonne «Points».

La longueur des valeurs pour les colonnes est de 7 dans ce cas. Le «PD.La méthode DataFrame () »générera un DataFrame avec ces colonnes et valeurs spécifiées. Maintenant, pour stocker ce DataFrame, nous avons créé un «test» de l'objet DataFrame et lui a attribué le résultat produit à partir de l'appel de la méthode du constructeur Pandas Dataframe. À partir de maintenant, nous pouvons accéder à ce DataFrame en utilisant l'objet «Test» comme nom de dataframe pour toutes les illustrations. En fin de compte, le dataframe s'affiche à l'écran en utilisant la méthode de Python «print ()».

La commande «Exécuter le fichier» nous fera le résultat de données résultant présenté dans la console Python.

Exemple 1: Sélection des lignes dans une dataframe basée sur les valeurs de la colonne

La première méthode, pour sélectionner les lignes dans une dataframe est la technique d'indexation booléenne. Dans cette méthode, nous avons vérifié chaque ligne comme «vraie ou fausse» dans le dataframe pour une condition de colonne définie particulière. Quelle que soit la ligne (s) correspond à la condition, elle donne «vrai» et sera sélectionnée comme sortie.

La syntaxe pour cette méthode pour exécuter le programme est:

Pour apprendre sa démonstration pratique, examinons ces étapes faciles. Nous devons le scripter comme le nom de DataFrame; opérateur d'indice; et entre crochets, écrivez le nom et l'état de la colonne. Notre DataFrame, comme nous l'avons mentionné ci-dessus, est «Tester» et la colonne que nous avons choisie pour appliquer la condition est «Marques». Nous avons appliqué une condition pour sélectionner les lignes où le nom de la colonne est «marques» et sa valeur est égale à «92». Donc, nous devons simplement extraire des lignes en fonction de la valeur «marques» de la colonne «92». Pour enregistrer le résultat, une variable a été générée et nommée «Dummy». Nous passerons cette variable «mannequin» à la méthode «print ()» pour afficher son contenu sur le terminal lorsqu'il est invoqué.

La sortie nous montre 2 lignes qui ont été sélectionnées dans le DataFrame après avoir vérifié la condition. Vous pouvez voir que la condition que nous avons spécifiée était de sélectionner des lignes où les marques sont «92». Ici, nous avons 2 enregistrements avec toutes les données affichées dont les marques sont «92». Le premier est «Albert» et le second est «Ronald».

Exemple 2: Sélection de lignes dans un dataframe basé sur les valeurs de colonne en utilisant la propriété loc []

La deuxième méthode que nous utilisons pour récupérer les lignes en utilisant les valeurs de colonne est le «DF.loc [] "avec le" df.Valeurs »Propriété.

Nous avons utilisé le «DF.Valeurs "propriété pour vérifier une condition. La colonne que nous avons sélectionnée pour vérifier les valeurs est «ST_NAME» à partir du «test» DataFrame. La condition que nous avons définie ici est de sélectionner la ligne où la valeur de la colonne "ST_NAME" est égale à "Ronald". Pour stocker le résultat, nous avons créé une «copie» variable. Ainsi, cette propriété vérifiera la condition et détecte les lignes qui détiennent les données requises.

Ensuite, nous avons utilisé la propriété «loc []» de DataFrame. Le nom du DataFrame en tant que «test» avec la propriété «loc []» est fourni. Entre les crochets de cet attribut, nous avons passé la «copie» variable qui a les lignes qui correspondent à la condition spécifiée. Le «DF.La propriété loc [] »récupérera simplement les lignes que la variable« Copie »détient. Pour préserver le résultat, nous avons une «données» variables. Pour voir la sortie finale, le "imprimer()" La méthode est invoquée avec la variable «Data» en tant que paramètre pour afficher son contenu.

Nous obtenons une ligne comme sortie qui répond à l'état défini. Car il n'y a qu'une seule entrée avec la valeur «Ronald» dans la colonne «ST_NAME» dans le DataFrame.

Exemple 3: Sélection des lignes dans un dataframe à l'aide des valeurs de colonne en utilisant le DF.Fonction Query ()

Une autre technique pour filtrer les lignes dans une dataframe basée sur les valeurs de colonne consiste à utiliser le "mettre en doute()" méthode. Cette méthode prend l'expression qui renvoie une valeur booléenne, vérifie la condition sur toutes les lignes dans un dataframe et renvoie une dataframe avec seulement les lignes qui répondent à la condition.

Nous avons invoqué le «DF.Fonction Query () ”. Ici, «DF» est le dataframe qui est nommé «test». Entre les parenthèses de la méthode, nous avons spécifié la condition. L'expression que nous avons définie provient de «ST_ID» où l'ID est égal à «10». La fonction «Query ()» extraire toutes les lignes du «test» de données qui correspondent à cette condition. Le résultat sera enregistré dans la variable «extraire». Enfin, les données stockées dans la variable «Extrait» sont affichées en appelant la méthode «print ()».

L'écran de sortie présente une seule ligne car il n'y a qu'un seul enregistrement associé au «ST_ID» comme «10». Vous pouvez voir que l'enregistrement se trouve sur l'index «0» qui est la première ligne dans le dataframe.

Exemple 4: Sélection de lignes dans un dataframe à l'aide des valeurs de colonne en utilisant la méthode iSin ()

La dernière stratégie dont nous discutons ici pour sélectionner les lignes est la méthode «isin ()». Il prend une série ou une liste de valeurs et d'extrait des lignes en fonction des valeurs de la liste.

Nous avons défini une liste de valeurs comme «itération» qui a ces valeurs: «Adam», «Elsa» et «George». Le «DF.La fonction isin () ”est invoquée. Le nom de DataFrame et le nom de la colonne sont fournis avec la méthode «isin ()». Entre les accolades, la liste «itération» est fournie. Ainsi, il vérifiera la colonne de Dataframe «Tester» «ST_NAME» pour les valeurs stockées dans la liste. S'il trouve les valeurs, il renvoie simplement la ligne sélectionnée. Nous avons conservé le résultat dans la variable «Store» et l'avons affichée à l'aide de la méthode «print ()».

Cela nous donne trois lignes qui correspondent aux valeurs de la liste.

Conclusion

La sélection de lignes spécifiques par des valeurs dans une dataframe est une technique utile. Nous avons démontré une variété de méthodes pour récupérer les lignes en fonction des valeurs de colonne. Nous vous avons d'abord fait apprendre la construction d'une dataframe, puis nous avons développé 4 exemples en utilisant différentes stratégies pour extraire les lignes. Toutes les illustrations ont été compilées et exécutées sur le Spyder.

Windows OS

Quelle est la différence entre Windows Top 10 Home et Pro

La version «Pro» est destinée aux utilisateurs professionnels et a plus d'outils administratifs, tan...

Julien Dumas

Docker

Quelle est la différence entre Docker et Podman?

Docker utilise une architecture client-serveur tandis que Podman est un moteur de conteneur de démon...

Jules Colin

Base de données Oracle

Oracle Fusion est-il considéré comme mieux que SAP?

Oracle Fusion (ERP basé sur le cloud) a une interface conviviale, tandis que SAP (Cloud et ERP sur s...

Sarah Roux