Pandas sélectionnez la colonne par nom

Pandas sélectionnez la colonne par nom
L'une des opérations les plus courantes lors du traitement des données consiste à extraire une colonne ou des colonnes à partir d'un Pandas DataFrame. Pour récupérer les colonnes et les lignes, le DataFrame donne à l'identifiant d'indexation «loc []». Cette méthode sélectionne uniquement les colonnes ou les lignes par étiquettes / noms.

La syntaxe de cette méthode est la suivante:

Dans cet article, vous verrez sa mise en œuvre pratique à travers les différentes techniques pour sélectionner les colonnes par nom.

Exemple 1: Utilisation de la propriété Pandas Loc [] pour sélectionner une seule colonne par nom

Pour extraire la colonne unique particulière de DataFrame, nous utilisons la propriété Pandas «loc []» dans cette illustration. Allons un guide étape par étape pour ce faire.

Sur un large éventail d'outils alternatifs, nous avons opté pour l'outil «Spyder» pour exécuter nos codes Python. Après avoir lancé l'outil, nous commençons à travailler avec le script. En venant au programme Python, nous vérifions d'abord les conditions préalables à l'exécution non préruption du script. Ici, comme le déclare le titre, «Pandas» est la bibliothèque requise pour travailler avec ses fonctions. Nous chargeons la boîte à outils Pandas dans notre environnement Python en scriptant les «Importer des pandas en tant que PD». Le «PD» est fait un alias pour les pandas à utiliser dans tout ce programme particulier au lieu des «pandas».

Pour travailler sur des colonnes, nous avons besoin d'une dataframe qui contient les colonnes. Pandas nous permet de construire une dataframe en utilisant sa méthode très facile qui est «PD.Trame de données()". Cette méthode a deux sections: «PD» et «DataFrame». Le «PD», comme décrit précédemment, est l'alias pour «pandas», ce qui signifie que nous appelons quelque chose du module Pandas. La deuxième partie «DataFrame» est le mot-clé utilisé pour créer le dataframe. Nous invoquons le «PD.Fonction DataFrame () ”pour générer un DataFrame. Les noms de colonne et leurs valeurs peuvent être définis entre les parenthèses de cette fonction.

Nous initialisons nos données de données avec 6 colonnes avec les noms «Mercure», «Vénus», «Terre», «Mars», «Jupiter» et «Saturne». Chaque colonne est allouée un ensemble particulier de valeurs. Pour «Mercure», nous avons des valeurs «13», «2», «24», «19», «9», «52» et «65». La colonne «Vénus» stocke les valeurs «32», «15», «3», «18», «39», «31» et «7». Dans la troisième colonne, nous avons des valeurs «Terre» «5», «7», «21», «15», «1», «3» et «13». Les valeurs pour les «Mars» sont «8», «21», «22», «34», «14», «21» et «2». Le «Jupiter» détient les valeurs qui sont «11», «1», «35», «62», «5», «15» et «12». La dernière colonne de DataFrame «Saturne» a les valeurs «21», «23», «45», «2», «11», «12» et «9». Chaque colonne de DataFrame préserve une durée égale des valeurs. Maintenant, nous avons fini de définir la colonne de notre DataFrame et leurs valeurs correspondantes.

Les pandas «PD.La fonction DataFrame () ”crée un DataFrame avec les données fournies. Mais il n'a pas d'espace pour le préserver. Pour enregistrer ce DataFrame quelque part, afin que nous puissions l'utiliser plus tard, nous créons un objet DataFrame. Cet objet DataFrame est étiqueté comme des «planètes». Le «PD.La méthode DataFrame () », une fois appelée, crée un DataFrame et les stocke dans cet objet DataFrame. Pour visualiser le dataframe à l'écran, nous avons la fonction de Python «print ()». Cette méthode affiche le contenu des «planètes» sur la console Python lorsqu'il est invoqué.

Nous pouvons voir la sortie DataFrame après avoir appuyé sur l'option «Exécuter Fichier» sur l'outil «Spyder». Notre DataFrame avec 6 colonnes et 7 lignes est présentée sur la console qui peut être vue dans l'image de sortie fournie dans les éléments suivants:

Notre exemple de données de données pour cette démonstration est prêt à travailler et à apporter des modifications en appliquant des fonctions. Nous sommes censés extraire une colonne en utilisant le nom de la colonne. Nous vous installerons sur l'approche pour effectuer ce.

Pour sélectionner une seule colonne par nom, le Pandas DataFrame nous fournit l'attribut «loc []». Il nous permet de choisir les colonnes ou les lignes en mentionnant leurs noms. Nous utilisons le «DF. Attribut loc [] ”. Le nom de DataFrame est fourni sous forme de «planètes». Entre les crochets, nous appuyons dans le nom de la colonne «Terre» après avoir quitté la place avec «:» Colon. Cela signifie que la sélection est effectuée en termes de colonne. Pour stocker le résultat, nous initialisons une variable «unique» qui stocke le contenu de la colonne unique mentionnée dans la propriété «loc []». La présentation de la sortie à l'écran nécessite d'appeler la fonction «print ()». Nous passons la variable «unique» à la fonction «print ()» pour montrer le résultat.

Voici notre Dataframe résultant avec une seule colonne sélectionnée. La colonne «Terre» est présentée à l'écran avec son contenu. Le nom de la colonne ainsi que le type de données de la valeur sont mentionnés sous la colonne extraite.

Exemple 2: Utilisation de la méthode Pandas Loc [] pour sélectionner les plusieurs colonnes par nom

La sélection d'une seule colonne dans un Pandas Dataframe est apprise dans l'instance précédente. De plus, nous pouvons également extraire plus d'une colonne qui utilise la propriété de Dataframe «loc []». Nous mettons ce concept en pratique par cette illustration.

Nous utilisons le dataframe créé dans l'instance précédente. Ce dataframe a 6 colonnes. Nous devons sélectionner plusieurs colonnes de notre choix. Le «DF.loc [] ”est invoqué. Ici, le nom de notre DataFrame est des «planètes» que nous fournissons avec le «.propriété loc [] ”. Il spécifie que nous souhaitons sélectionner les lignes ou colonnes particulières dans le dataframe fourni. Entre les crochets de la propriété «loc []», nous avons deux sélections. La première place consiste à sélectionner les lignes tandis que l'autre est pour la sélection des colonnes. Pour ce guide, nous sauterons la première place et ajouterons simplement un côlon «:» parce que nous n'avons pas besoin de faire une sélection sur les lignes.

Dans la colonne, nous introduisons un opérateur d'indice «[]» que nous appelons également les crochets. Dans cet opérateur d'indice, écrivez le nom des colonnes. Nous sélectionnons 3 colonnes qui sont «Mercure», «Mars» et «Saturne». La sortie de cette propriété est enregistrée dans la variable «multi». Enfin, nous utilisons la méthode «print ()» pour afficher le résultat à l'écran.

Le DataFrame résultant nous montre 3 colonnes qui sont sélectionnées à l'aide de la propriété «loc []». Les colonnes sélectionnées apparaissent sur le terminal tandis que les autres sont ignorés.

Exemple 3: Utilisation de la méthode Pandas Loc [] pour sélectionner une gamme de colonnes par nom

La sélection de colonnes en appuyant sur leurs noms, un par un devient parfois une tâche mouvementée lorsque vous devez extraire un large nombre de colonnes. Si vous devez extraire les colonnes d'une liste de colonnes spécifiée jusqu'à un point particulier, vous pouvez le faire en fournissant la gamme de colonnes dans l'attribut «loc []». Voyons son exercice pratique.

Nous utilisons le «DF.propriété loc [] ”. Dans la colonne, nous fournissons la gamme de colonnes que nous devons récupérer. Le premier nom de colonne d'où commence la gamme et le deuxième nom de colonne à laquelle la plage se termine, sont tous deux séparés par un opérateur de colon «:». Ici, nous sélectionnons la colonne «Vénus» pour démarrer la gamme et la colonne «Jupiter» à laquelle se termine la plage. Entre cette gamme, quelles que soient des colonnes, la méthode «loc []» les extrait tous. Nous stockons le résultat dans la variable «Nom» et l'affichage à l'aide de la méthode «print ()».

Dans l'instantané de sortie, nous pouvons voir que toutes les colonnes de «Vénus» à «Jupiter» sont exposées à l'écran.

Conclusion

Ce guide est basé sur la sélection des colonnes dans un Pandas DataFrame. Pandas DataFrame nous fournit un attribut qui est «df.loc [] ”pour faire une sélection sur les lignes ou les colonnes ou même les deux. Nous avons travaillé sur 3 exemples dans cet article. Le premier exemple donne une explication détaillée de la sélection d'une seule colonne dans un dataframe. Le deuxième exemple a fonctionné sur la sélection de plusieurs colonnes. Tandis que la troisième illustration est fondée sur l'idée de sélectionner une gamme de colonnes dans un dataframe.