Comment utiliser la boîte à boîte dans Python

Comment utiliser la boîte à boîte dans Python
Un tracé de boîte est utilisé pour résumer les ensembles de données en utilisant la méthode de la boîte et du tracé de moustache. Cette fonction aide les utilisateurs à comprendre correctement le résumé des données. Les parcelles de boîte peuvent être très utiles lorsque nous voulons savoir comment les données sont distribuées et réparties. Trois types de quartiles sont utilisés dans le tracé de la boîte pour tracer les données. Ces valeurs incluent les valeurs statistiques médianes, maximales, minimales, supérieures et supérieures. Un tracé de boîte résume ces données dans le 25e, 50e, et 75e centiles. Ce tutoriel vous montrera comment créer des tracés de boîte en fonction d'un ensemble de données donné à l'aide du pandas et marin Bibliothèques de Python.

Prérequis

Si vous êtes un nouvel utilisateur Python, vous devrez d'abord configurer l'environnement pour afficher la sortie du tracé de la boîte. Vous pouvez utiliser n'importe quel interprète Python pour exécuter le code. Dans ce tutoriel, j'utiliserai Spyder3 Pour exécuter le code. Si vous n'avez pas installé le pandas et marin bibliothèques avant, vous devez ensuite exécuter la commande suivante à partir du terminal pour installer ces bibliothèques:

$ pip3 Installer Pandas Seaborn

Tracés avec pandas

Le boxplot () méthode de pandas est utilisé pour générer des chiffres de tracé de boîte en fonction de la trame de données. Cette méthode contient de nombreux arguments; Certains de ces arguments sont utilisés dans les exemples ci-dessous. Cette partie du tutoriel comprendra deux exemples qui vous montreront comment créer des parcelles de boîte dans pandas. Vous pouvez utiliser des données générées de manière aléatoire dans la bibliothèque Numpy, ou les données d'un fichier CSV, pour générer un tracé de boîte dans pandas.

Exemple 1: parcelles de boîte basées sur des valeurs aléatoires

Les parcelles de boîte dans l'exemple suivant ont été générées en utilisant Nombant et pandas. La bibliothèque Numpy est utilisée dans le script pour créer un objet de trame de données en générant un tableau bidimensionnel de valeurs aléatoires contenant 5 lignes et 5 colonnes. Le contenu du cadre de données sera imprimé en utilisant la tête() méthode. Ensuite, le boxplot () La méthode est utilisée pour générer des parcelles de boîte avec une couleur bleue, une taille de police 10 et un angle rotatif de 30 degrés pour afficher les valeurs de la colonne.

#!/ usr / bin / env python3
# Importer la bibliothèque Pandas
Importer des pandas en tant que PD
# Importez la bibliothèque Numpy pour créer les nombres aléatoires du tableau
Importer Numpy comme NP
"
Générer un ensemble de données basé sur un tableau Numpy créé au hasard
et cinq valeurs de colonnes
"
dataframe = pd.DataFrame (NP.aléatoire.Randn (5,5), colonnes = [«2016», «2017», «2018»,
«2019», «2020»])
# Imprimer les valeurs de DataFrame
Imprimer (DataFrame.diriger())
# Affichez le tracé de la boîte en fonction des valeurs DataFrame
trame de données.boxplot (grid = 'false', color = 'bleu', fontsize = 10, rot = 30)

Sortir

La sortie suivante apparaîtra après avoir exécuté le code.

Exemple 2: parcelles de boîte basées sur les données CSV

Les parcelles de boîte dans l'exemple suivant ont été générées à partir des données CSV. Créer un fichier CSV nommé banque.CSV en utilisant les données suivantes.

banque.CSV

SL, client_name, compte_type, genre, solde
1, Maria Hernandez, Saving, femme, 120000
2, Mary Smith, courant, femelle, 40000
3, David Smith, courant, homme, 379000
4, Maria Rodriguez, Saving, femelle, 56000
5, Mark Lee, Saving, homme, 93500
6, Jonathan Bing, courant, homme, 5900
7, Daniel Williams, Saving, homme, 2300
8, Mike Brown, courant, mâle, 12488
9, Paul Smith, courant, homme, 59450
10, Maria Lopez, Saving, femme, 487600

Dans le script suivant, le matplotlib La bibliothèque a été utilisée pour configurer la taille de la figure du tracé de la boîte et afficher la sortie en ligne. Tous les enregistrements la Banque.CSV le fichier a été chargé en utilisant le read_csv () méthode de pandas. Les 8 premiers enregistrements du cadre de données ont ensuite été imprimés en utilisant le diriger() méthode. Le boxplot () La méthode a été utilisée dans l'instruction suivante pour dessiner la figure de tracé de la boîte en utilisant la couleur rouge basée sur 'Type de compte' avec la colonne nommée 'Équilibre.'

#!/ usr / bin / env python3
# Importer des pandas pour générer un tracé de boîte
Importer des pandas en tant que PD
# Importez Matplotlib pour configurer la taille de la figure du tracé de la boîte
Importer Matplotlib.pypllot comme plt
# Importer get_ipython pour formater la sortie en ligne
à partir d'Ipython Import get_ipython
get_ipython ().run_line_magic ('matplotlib', 'inline')
# Configuration de la taille de la figure
PLT.rcparams ['figure.FigSize '] = (8,4)
# Chargez l'ensemble de données à partir d'un fichier CSV
df = pd.read_csv ("Banque.CSV ")
# Imprimez les 8 premières lignes des données chargées
Imprimer (DF.tête (8))
# Afficher les parcelles de boîte en fonction du paramètre utilisé
df.boxplot (by = 'account_type', grid = 'true', colonnes = ['Balance'], color = 'red')

Sortir

La sortie suivante apparaîtra après avoir exécuté le code.

Parcelles de boîte avec Seaborn

Une autre bibliothèque de Python couramment utilisée pour dessiner des parcelles de boîte est la bibliothèque marin. L'une des caractéristiques importantes de cette bibliothèque est qu'il dispose de nombreux ensembles d'échantillons intégrés pour tester différentes tâches. Les deux exemples suivants couvriront l'utilisation de deux ensembles d'échantillons différents pour dessiner des tracés à l'aide du marin bibliothèque.

Exemple 3: parcelles de boîte basées sur le paramètre x

L'exemple suivant utilise un exemple de jeu de données, nommé 'Diamants, ' depuis les marins bibliothèque pour générer le tracé de la boîte. Ici, le style de grille est défini en utilisant le set_style () méthode. Le load_dataset () La méthode est utilisée pour charger les données du 'diamants base de données. Les cinq premiers enregistrements sont imprimés à partir de l'ensemble de données et le boxplot () La méthode est ensuite utilisée pour dessiner le tracé de la boîte en fonction de la colonne, nommée 'profondeur,'avec une couleur bleue.

# Importer la bibliothèque Seaborn pour générer un tracé de boîte
Importer Seaborn comme SNS
# Importez Matplotlib pour configurer la taille de la figure du tracé de la boîte
Importer Matplotlib.pypllot comme plt
# Importer get_ipython pour formater la sortie en ligne
à partir d'Ipython Import get_ipython
get_ipython ().run_line_magic ('matplotlib', 'inline')
# Configuration du style de la grille
sns.set_style ("whitegrid")
# Configuration de la taille de la figure
PLT.rcparams ['figure.FigSize '] = (8,4)
# Chargez l'échantillon de données
diamond_dataset = sns.load_dataset («diamants»)
# Afficher les 5 premiers enregistrements de l'ensemble de données
Imprimer (Diamond_dataset.diriger())
# Dessiner la figure des parcelles de boîte
sns.boxplot (x = diamond_dataset ['profondeur'], color = 'bleu')

Sortir

La sortie suivante apparaîtra après avoir exécuté le code.

Exemple 4: parcelles de boîte basées sur les paramètres x et y

L'exemple suivant utilise l'échantillon de données nommées 'vols'Pour dessiner le tracé de la boîte. Ici, à la fois les paramètres x et y de le boxplot () la méthode est utilisée pour dessiner la figure. Les autres déclarations sont similaires à l'exemple précédent.

# Importer la bibliothèque Seaborn pour générer un tracé de boîte
Importer Seaborn comme SNS
# Importez Matplotlib pour configurer la taille de la figure du tracé de la boîte
Importer Matplotlib.pypllot comme plt
# Importer get_ipython pour formater la sortie en ligne
à partir d'Ipython Import get_ipython
get_ipython ().run_line_magic ('matplotlib', 'inline')
# Configuration du style de la grille
sns.set_style ("darkgrid")
# Configuration de la taille de la figure
PLT.rcparams ['figure.FigSize '] = (12,4)
# Chargez l'échantillon de données
flight_dataset = SNS.load_dataset («vols»)
# Afficher les 5 premiers enregistrements de l'ensemble de données
Imprimer (Flight_dataset.diriger())
# Dessiner la figure des parcelles de boîte
sns.boxplot (x = 'mois', y = 'passagers', data = flight_dataset, color = 'bleu')

Sortir

La sortie suivante apparaîtra après avoir exécuté le code.

Conclusion

Lorsque vous travaillez avec une grande quantité de données, vous voudrez peut-être résumer les données en utilisant un diagramme, comme un tracé de boîte. Ce tutoriel a utilisé plusieurs exemples pour vous montrer comment générer des tracés de boîte avec deux bibliothèques Python.