Nous discuterons de Pandas dans Python, une bibliothèque open source qui fournit des structures de données et des outils d'analyse de données hautes performances prêts à l'emploi. Nous allons également en apprendre davantage sur le dataframe, les avantages des pandas et comment vous pouvez utiliser des pandas pour sélectionner plusieurs colonnes d'un dataframe . Commençons!
Qu'est-ce que les pandas à Python?
Pandas est une bibliothèque open-source python. Il offre des structures et des outils efficaces pour l'analyse des données prêts à l'emploi. Pandas est un module Python qui fonctionne au-dessus de Numpy et est largement utilisé pour la science et l'analyse des données. Numpy est un autre ensemble de structures de données de bas niveau qui peuvent gérer des tableaux multidimensionnels et une variété d'opérations mathématiques. Les pandas ont une interface utilisateur plus avancée. Il a également une capacité chronologique robuste et un alignement des données tabulaires efficaces. La structure de données principale de Pandas est le dataframe. Une structure de données 2D nous permet de stocker et de modifier les données tabulaires. Les pandas fournissent toutes les fonctionnalités au dataframe comme la manipulation des données, la concaténation, la fusion, le regroupement, etc.
Qu'est-ce qu'un Dataframe?
La structure de données la plus essentielle et la plus utilisée est le dataframe. C'est une méthode courante de stockage de données. DataFrame stocke les données dans les lignes et les colonnes, tout comme une table SQL ou une base de données de feuille de calcul.
Avantages des pandas
De nombreux utilisateurs souhaitent que le SQL ait inclus des capacités comme la génération de nombres aléatoires gaussiens ou les quantiles parce qu'ils ont du mal à incorporer une notion procédurale dans une requête SQL. Les utilisateurs peuvent dire: «Si seulement je pouvais écrire ceci dans Python et revenir rapidement à SQL», et Pandas fournit un type de données tabulaire avec des interfaces bien conçues qui leur permettent de faire exactement cela. Il existe plus d'options verbeuses, comme l'utilisation d'un langage procédural spécifique comme l'Oracle PLSQL ou le PLPGSQL de Postgres ou une interface de base de données de bas niveau. Les pandas ont une interface de lecture SQL à une ligne (PD.Lire SQL) et une interface d'écriture SQL en une lignée (PD.à SQL), comparable à R des cadres de données.
Un autre avantage significatif est que les bibliothèques de cartographie telles que SeaBorn peuvent traiter les colonnes de trame de données comme des attributs de graphiques de haut niveau. Ainsi, les pandas fournissent un moyen raisonnable de gérer les données tabulaires à Python et de très merveilleuses API de stockage et de cartographie.
Option 1: Utilisation de l'index de base de base
1 2 3 4 5 6 7 8 9 dix | Importer des pandas en tant que PD data = 'name': ['a', 'b', 'c', 'd'], «Âge»: [27, 24, 22, 32] df = pd.DataFrame (données) df [['name', 'age']] |
Sortir:
1 2 3 4 5 6 7 8 9 | Nom Age 0 a 27 1 b 24 2 C 22 3 D 32 |
Option 2: Utilisation .loc []
1 2 3 4 5 6 7 8 9 dix 11 12 13 14 | Importer des pandas en tant que PD data = 'fruit': ['pomme', 'banana', 'raisins', 'orange'], 'Prix': [160, 100, 60, 80] df = pd.DataFrame (données) df.loc [0: 2, [«fruit», «prix»]] |
Sortir:
1 2 3 4 5 6 7 8 9 | Prix des fruits 0 Apple 160 1 banane 100 2 raisins 60 3 Orange 80 |
Option 3: Utilisation .Iloc []
1 2 3 4 5 6 7 8 9 dix 11 12 13 14 15 16 17 18 | Importer des pandas en tant que PD data = 'dog': ['a', 'b', 'c', 'd'], «Âge»: [2, 4, 3, 1] df = pd.DataFrame (données) df.Iloc [:, 0: 2] |
Sortir:
1 2 3 4 5 6 7 8 9 | Âge du chien 0 a 2 1 b 4 2 C 3 3 d 1 |
Options 4: Utilisation .ix []
1 2 3 4 5 6 7 8 9 dix 11 12 13 14 15 16 17 18 | Importer des pandas en tant que PD data = 'name': ['a', 'b', 'c', 'd'], 'Roll Number': [21, 25, 19, 49] df = pd.DataFrame (données) Imprimer (DF.ix [:, 0: 2]) |
Sortir:
1 2 3 4 5 6 7 8 9 | Numéro de rôle 0 a 21 1 b 25 2 C 19 3 D 49 |
Conclusion
Nous avons discuté de Pandas dans Python, du DataFrame, des avantages des pandas et de la façon d'utiliser des pandas pour sélectionner plusieurs colonnes d'un dataframe. Il y a quatre options dont nous avons discuté pour sélectionner plusieurs colonnes: en utilisant l'indexation des clés de base, «.ix ",".loc »et«.iloc », respectivement.