Pandas compte les lignes avec condition

Pandas compte les lignes avec condition
Les pandas sont parmi les outils de science des données et d'apprentissage des données les plus adoptés pour le nettoyage et le traitement des données. Vous devrez peut-être acquérir plusieurs lignes présentes dans le DataFrame tout en utilisant le Pandas DataFrame pour stocker et analyser vos données. Pour le processus de traitement des données, vous devrez peut-être compter rapidement les occurrences des mêmes entrées ou différentes de votre ensemble de données ou en particulier des lignes qui remplissent une condition donnée.

Pandas nous permet de déterminer la forme d'une dataframe en comptant le nombre de lignes ainsi que des colonnes dans le dataframe. Vous pouvez utiliser une variété de méthodes pour comprendre le concept pour compter le nombre de lignes et de colonnes en pandas. Il s'agit notamment de «Len ()», «DF.forme [0] "," df [df.colonnes [0]].count () »,« df.count () "et" df.Méthodes size () ». Le plus rapide de ces méthodes est Len (), que nous examinerons dans ce tutoriel.

Commençons à l'apprendre en mettant en œuvre pratiquement les codes d'exemple.

Utilisation de la méthode Pandas Len ()

La technique que nous allons mettre en œuvre dans cette illustration est la méthode «Len ()». Explorons comment cela fonctionne.

Tous les exemples de codes que nous utiliserons dans ce tutoriel sont implémentés et exécutés dans Python en utilisant l'outil «Spyder». La première tâche consiste à installer et à exécuter l'outil «Spyder» sur votre ordinateur de bureau ou ordinateur portable. Une fois que nous avons terminé le processus d'installation, nous ouvrons l'outil et ouvrons un nouveau fichier qui a un «.extension py ”. Ici, «py» représente «Python». Avant de commencer à écrire notre code, nous devons ajouter des conditions préalables. Comme le titre de notre article nous dit brièvement que les techniques que nous utiliserons doivent être prises en charge par la bibliothèque «Pandas».

Par conséquent, nous devons ajouter une bibliothèque Pandas en écrivant le script «Importer des pandas en tant que PD». Nous avons maintenant importé la bibliothèque Pandas et déclaré que les pandas sont désormais accessibles en écrivant «PD» au lieu de la forme complète «Pandas» tout au long du programme. À l'avenir, nous créons un Pandas DataFrame où nous exerçons la technique des pandas choisis. Pour la construction d'une dataframe, les pandas nous fournissent une méthode très simple et utile «PD.DataFrame () "où" PD "fait référence à" pandas "et" dataframe "est le mot-clé utilisé pour créer le dataframe.

Nous avons utilisé cette méthode dans notre script. Entre ses parenthèses, nous avons initialisé trois colonnes. Le titre de notre première chronique est «Groupe» qui stocke huit valeurs de cordes qui sont «x», «x», «x», «x», «y», «y», «y» et «y». La deuxième colonne de DataFrame est «POS» qui stocke également 8 valeurs de chaîne. Ces valeurs sont «Au», «Bo», «Bo», «Bo», «Au», «Au» et «Bu». La dernière colonne ici est «scores» et il contient huit valeurs entières, i.e. «19», «23», «18», «15», «15», «12», «21» et «28». Lorsque nous générons un DataFrame, nous devons également créer une variable ou un objet DataFrame pour stocker ce DataFrame.

Ici, la variable que nous avons créée dans ledit objectif est «Res». Ensuite, nous attribuons cette fonction à la sortie générée en invoquant le «PD.Méthode DataFrame () ». Maintenant, pour voir cette dataframe, nous avons créé sur le terminal que nous avons utilisé la fonction «print ()» qui affiche la sortie. Exécutons ce script Python:

Pour afficher la sortie sur le terminal, cliquez sur le bouton «Exécuter le fichier» de l'outil «Spyder». Voici nos données initiales:

Utilisation de la méthode Len () avec une condition

Maintenant, nous devons compter les lignes de la colonne spécifiée dans le dataframe qui répond à l'état fourni. Nous appliquerons d'abord la condition sur une seule colonne pour récupérer le nombre de lignes qui correspondent à la condition. Ensuite, nous l'appliquons aux multiples colonnes du DataFrame. Pour les deux techniques, nous avons utilisé la méthode «len ()» de Pandas. La syntaxe pour cette méthode pour appliquer les conditions sur une seule colonne est fournie dans ce qui suit:

Selon la syntaxe, nous avons invoqué la méthode «len ()» qui compte le nombre de lignes. À l'intérieur de ses accolades, nous avons spécifié une condition avec le nom de DataFrame et le nom de la colonne DataFrame. Nous avons sélectionné la colonne «Groupe» à partir de notre DataFrame et spécifié une condition pour elle. La condition indique de vérifier si une valeur de la colonne «groupe» est égale à «x». Chaque fois que la condition est appariée, la méthode «Len ()» compte la ligne qui le contient.

Maintenant, pour stocker cette valeur comptée des lignes qui remplissaient la condition, nous avons créé un «nombre» variable. Nous avons utilisé la méthode «print ()» pour afficher un texte sur le terminal avant les lignes comptées. Dans le but de voir la sortie des lignes comptées affichées, nous avons à nouveau utilisé la fonction «print ()» et avons fourni la variable «Count» comme paramètre.

Nous avons à la fois notre DataFrame et les lignes comptées qui correspondaient à la condition affichée sur le terminal. Nous pouvons noter que le DataFrame a des lignes «4» qui correspondent à la condition. Vous pouvez également le vérifier en le comparant à la DataFrame précédente. La colonne «Groupe» a 4 valeurs «x», il est donc calculé par la méthode Pandas «Len ()».

Utilisation de la méthode Len () avec plusieurs conditions

Nous avons compté le nombre de lignes avec la condition pour une seule colonne dans l'exemple précédent. Maintenant, nous apprendrons à compter les lignes pour deux colonnes. La syntaxe qu'il suit est:

Expliquant cette syntaxe, la fonction «len ()» est appelée pour compter le nombre de lignes qui remplissent les conditions. Ensuite, nous avons mentionné le nom du DataFrame dont nous voulons compter. Maintenant, le nom de la première colonne avec la condition particulière, puis le nom de la deuxième colonne de DataFrame avec la condition spécifiée. Entre ces deux conditions se trouve l'opérateur «&». Cet opérateur est appelé l'opérateur «et». En cas de deux déclarations conditionnelles, cela signifie que les lignes ne seront comptées que si les deux conditions sont remplies.

Dans notre illustration, nous avons sélectionné la colonne «Groupe» et la colonne «POS». Nous avons appliqué les conditions à ces deux colonnes. La condition sur la colonne «Groupe» vérifie les valeurs de cette colonne particulière qui sont égales à «Y». Tandis que la condition sur «pos» vérifie les valeurs égales à «bo». L'opérateur «&» vérifie les valeurs de la sortie des deux valeurs et vérifie la condition. Nous avons donc besoin du nombre de lignes qui a la valeur «groupe» «X» et le «POS» égal à «BO».

Nous avons créé une autre variable «cal». Lorsque les conditions sont vérifiées, la fonction «len ()» compte le nombre de lignes et la stocke dans la variable «Résultat». Enfin, nous avons utilisé deux méthodes «print ()», l'une pour afficher un texte tandis que l'autre pour imprimer les lignes comptées par la fonction «Len ()» stockée dans la variable «cal».

L'image de sortie suivante attachée nous montre qu'il n'y a que 3 lignes dans le dataframe qui répondent à la condition spécifiée. De la colonne «groupe» et «pos», seules trois lignes sont récupérées qui ont «X» «groupe» et le «POS» est «bo». Donnez-lui quelques secondes pour vérifier par vous-même si la sortie générée est correcte en examinant le dataframe affiché dans l'instantané suivant:

Vous avez appris à appliquer les conditions sur deux colonnes. Maintenant, les appliquer sur plusieurs colonnes ne vous causera pas de problèmes. Nous appliquons maintenant les conditions sur les trois colonnes dans le DataFrame et n'obtenons que le nombre de ces lignes qui remplissent les trois conditions.

La première condition est appliquée sur la colonne «Groupe» pour vérifier les valeurs égales à «Y». Ensuite, les valeurs du «groupe» qui sont «y» et le «POS» sont «bo». Et la dernière condition qui comprend les conditions complètes indique que le «groupe» égal à «Y» et le «POS» est «BO» et les «scores» sont supérieurs à «15». Récupérer ces enregistrements de la dataframe. Le «len ()» compte les lignes et les stocke dans la variable «Résultat». Utilisez la méthode «print ()» pour afficher la sortie.

La sortie nous dit qu'il y a 2 lignes dans le dataframe qui remplissent les trois conditions.

Conclusion

Pandas nous offre une variété de fonctionnalités très utiles et importantes. Ce tutoriel est basé sur la méthode fournie par Pandas. Il s'agit de la fonction «Len ()» pour compter le nombre de lignes dans une dataframe donnée. Dans cet apprentissage, notre objectif et notre objectif est de vous faire comprendre comment vous pouvez compter le nombre de lignes qui remplissent une condition définie. Nous avons expliqué chaque étape de cette technique explicitement verbalement ainsi qu'avec l'aide d'exemples de codes implémentés sur l'outil «Spyder». Nous tenons une tentative sincère de rendre ce morceau d'écriture aussi facile et pratique que possible pour que vous compreniez le concept.