HISTOPLOT DE SEA

HISTOPLOT DE SEA

Les histogrammes sont des représentations visuelles d'une collection de distribution de données continues. Un histogramme divise les données en intervalles ou bacs (généralement sur l'axe X), le nombre de points de données tombant dans chaque bac égal à la hauteur de la barre au-delà de ce bac. Ces bacs ne sont pas tous de la même taille, mais ils sont proches les uns des autres (sans lacunes). De plus, les largeurs de ces bacs ne sont pas nécessairement égales, mais elles sont à proximité (sans lacunes).

Nous allons passer en revue l'explication de l'intrigue de l'histogramme de Seaborn dans cet article, qui vous aidera à visualiser la distribution des données dans les applications de science des données et d'apprentissage automatique. Cet article vous montrera comment utiliser le Seaborn.Méthode histplot () pour créer une variété de différentes types d'affichages d'histogramme. Nous expliquerons également ce que signifie chacun des arguments de la fonction de l'histogramme marin.

Un autre outil pour examiner les distributions de données est un tracé de densité et le tracé de densité du noyau est un autre nom pour cela. C'est un histogramme lissé. Les pics d'un tracé de densité montrent où les valeurs sont accumulées à travers le temps. Des méthodes de lissage sont disponibles dans une variété de tailles et de formes. L'une des méthodes pour lisser un histogramme est l'estimation de la densité du noyau (KDE).

Syntaxe de l'histpllot marin

La méthode Histplot de SeaBorn a une syntaxe très simple. Les marins.La méthode Histplot () est une fonction spécialisée pour produire des histogrammes dans SeaBorn.

sns.Hisplot (data = dataframe_name, x = x-axe)

Nous utilisons normalement l'argument de données à l'intérieur de la parenthèse pour identifier le cadre de données sur lequel nous voulons travailler, et l'argument X pour spécifier la variable spécifique que nous voulons tracer. Il y a quelques autres arguments que nous pourrions utiliser pour modifier le comportement de la fonction histplot ().

KDE: Vous pouvez insérer une ligne «Estimation de densité du noyau» au-dessus de votre histogramme en utilisant l'option KDE. Une ligne KDE est une ligne continue qui représente la densité de données. Les lignes KDE sont une représentation visuelle de la répartition des données qui peuvent être utilisées à la place des histogrammes. Cependant, les lignes KDE sont parfois utilisées en conjonction avec des histogrammes. Comme argument, cette option prend une expression booléenne (je.e., Vrai ou faux).

teinte: Ce paramètre aide à la cartographie des couleurs des variables pour les parcelles.

Poids: Les poids aident à déterminer l'influence de chaque ensemble de données sur le nombre de chaque bac.

STAT: Les quatre catégories de méthodes statistiques utilisées pour calculer les valeurs de bacs sont «compter», «fréquence», «densité» et «probabilité».

bacs: Le paramètre bin qui spécifie le nombre de bacs à utiliser.

Binwidth: La largeur du bac peut être ajustée ici.

binrange: Les valeurs les plus basses et les plus grandes pour les arêtes peuvent être définies en utilisant cette option.

palette: Pour la cartographie sémantique Hue, nous pouvons choisir nos nuances.

couleur: Si aucun mappage de teintes n'est disponible, cet argument nous permet de choisir une seule couleur à Matplotlib.

Exemple 1:

Ici, nous avons créé un histogramme simple en utilisant les paramètres par défaut. Nous avons importé les bibliothèques qui nous aident à générer le complot. Après cela, nous définissons le style pour SeaBorn en utilisant le paramètre de style comme DarkGrid dans la fonction SET. Pour le HistPlot, nous avons chargé un ensemble de données «MPG». La fonction Histplot de Seaborn est ensuite invoquée lorsque les données et les paramètres x sont passés et attribués une valeur. Le paramètre X prend l'accélération du nom du champ de l'ensemble de données «MPG».

La représentation simple du tracé d'histogramme est la suivante:

Exemple 2:

Nous utilisons la fonction randn pour la visualisation du tracé de l'histogramme. Pour cela, nous avons inclus les bibliothèques nécessaires qui sont requises pour l'implémentation du code. Ensuite, nous avons créé un ensemble de données pour le nombre aléatoire et la fonction Randn génère des nombres aléatoires dans la plage spécifiée. La fonction Histplot de SeaBorn prend le paramètre de données comme «numéro» qui est l'ensemble de données créé avec la fonction Randn et la valeur du paramètre KDE à True.

Ce qui suit est la visualisation de l'histogramme avec la ligne de courbe KDE:

Exemple 3:

L'échantillon de données «Iris» du package Seaborn est utilisé dans cet exemple. Nous avons ajouté les bibliothèques Matplotlib, Seaborn, Panda et Numpy essentielles pour créer le tracé d'histogramme. Ensuite, nous avons créé une variable DF_IRIS où le jeu d'échantillons de données IRIS est chargé. L'histplot de Seaborn prend l'iris de l'ensemble de données à l'intérieur et définit le paramètre x comme le sepal_length de l'ensemble de données de l'iris, la valeur KDE à true, et l'espèce variable sémantique est cartographiée à l'aide du paramètre Hue.

Des distributions de longueur sépale multiples d'espèces sont observées dans le tracé d'histogramme unique suivant:

Exemple 4:

Dans cet exemple, l'histogramme est normalisé de sorte que la hauteur de chaque barre représente une probabilité plutôt qu'un nombre de points de données. Ici, nous avons chargé un échantillon de «points» qui a des caractéristiques différentes. Parmi ces caractéristiques, nous définissons le paramètre X en tant que tiring_rate dans la fonction HISTPLOT à partir du jeu de données DOTS. Nous avons également spécifié le paramètre STAT comme probabilité et la valeur discrète à True qui combine les ruptures de bac avec des barres centrées sur leur valeur respective pour représenter les valeurs distinctes dans un ensemble de données. Enfin, le paramètre de couleur est réglé sur la couleur verte.

La représentation du tracé d'histogramme avec la probabilité est dans l'instantané suivant:

Exemple 5:

Nous pouvons construire la deuxième forme d'un histogramme. L'histogramme bivarié représente deux variables à l'aide des axes x et y. Cet exemple illustre un histogramme bivarié à valeur bac avec une barre de couleur pour indiquer les valeurs. Le colormap est utilisé pour afficher la barre de couleur. Nous avons inséré le cadre de données des pingouins comme ensemble de données. Les variables x et y, ainsi que les bacs, discrets et paramètres d'échelle logarithmique, sont ensuite spécifiés dans la fonction Histplot. Pour lier la barre de couleur à l'intrigue, nous avons en outre donné l'option CBAR. Le paramètre discret est utilisé pour gérer les lacunes de l'histogramme, et l'échelle de journal est utilisée pour définir une échelle de journal sur l'axe des données.

La visualisation du tracé d'histogramme bivarié est illustrée dans la figure suivante:

Conclusion

Nous avons expliqué l'histplot dans SeaBorn. Nous avons utilisé la fonction Histplot () dans ce post pour passer en revue le guide de tracé de l'histogramme de Seaborn. Nous avons examiné divers cas de création d'histogramme pour les circonstances statistiques multivariées, ainsi que les stratégies de binning.