SeaBorn est un module de visualisation remarquable pour Python qui vous permet de tracer des visuels statistiques. Il est basé sur le logiciel Matplotlib et est étroitement connecté aux structures de données de Pandas. Dans un apprentissage non surveillé, les techniques de regroupement aident à l'acquisition de données structurées. Dans cet article, nous verrons ce qu'est une carte de cluster et comment construire et l'utiliser à diverses fins.
Syntaxe de la carte de cluster à Seaborn
Nous avons une syntaxe simple pour la carte de cluster Seaborn ici:
1 | marin.clusterMap (data ,, standard_scale = aucun, figsize = (6, 8), ** kwargs) |
Ci-dessous, nous avons expliqué le paramètre passé à l'intérieur de la fonction de cluster Seaborn ainsi que certains paramètres facultatifs.
données: Pour le regroupement, des données rectangulaires sont utilisées. Les Nas ne sont pas autorisés.
pivot_kws: Si les données sont dans une dataframe radie.
méthode: Pour calculer les clusters, appliquez l'approche de liaison. Pour plus de détails, consultez la documentation de Scipy.grappe.hiérarchie.lien().
métrique: Les données doivent être mesurées en termes de distance. Plus de paramètres peuvent être trouvés dans le scipy.spatial.distance.Documentation PDIST (). Vous pouvez créer chaque matrice de liaison manuellement et la fournir comme une ligne. COL Linkage utilise les métriques (ou méthodologies) pour les lignes et les colonnes.
z_score: Si les scores Z doivent être calculés pour les colonnes ou les lignes. Les scores z sont calculés comme z = (x - moyenne) / std, ce qui signifie que les valeurs de chaque ligne (colonne) seront déduites de la moyenne de la ligne (colonne), puis divisée par l'écart type (colonne de la colonne) (colonne) de la ligne (colonne) de la ligne (colonne). Cela garantit une moyenne de 0 et une variation de 1 pour chaque ligne (colonne).
standard_scale: Que ce soit pour normaliser cette dimension ou non, soustraire le minimum et diviser chaque ligne ou colonne par son maximum.
figurer: La taille globale de la figure qui comprend la largeur et la hauteur.
row, col _cluster: Si vrai, les lignes et les colonnes seront regroupées ensemble.
Row, Col _Colors: Les couleurs pour étiqueter les lignes ou les colonnes. Il peut être utilisé pour voir si les données d'une collection sont regroupées collectivement. Pour plusieurs niveaux d'étiquetage de couleurs, vous pouvez utiliser les listes empilées ou une dataframe si elle est livrée sous la forme d'un panda. DataFrame ou Pandas sont tous deux de bonnes options. Les étiquettes de couleur sont dérivées des noms de champ DataFrames ou du nom de la série. Les couleurs de DataFrame / Series sont également corrélées à l'ensemble de données par index, garantissant que les couleurs sont présentées dans la séquence appropriée.
dendrogram, couleurs _ratio: Le pourcentage de la taille graphique est dédié aux deux sections de bordure. Lorsqu'une paire est spécifiée, elle fait référence aux rapports de ligne et de col.
cbar_pos: Dans le diagramme, les axes de la barre de couleur sont dans les positions correctes. La barre de couleurs est désactivée si vous le définissez sur aucun.
kwargs: HeatMap reçoit tous les autres paramètres de mots clés ().
Nous allons construire une carte thermique en utilisant les grappes hiérarchiques à travers la fonction de clustermap de SeaBorn. Le clustermap de SeaBorn est une fonction vraiment utile. Nous vous montrerons comment l'utiliser avec quelques exemples:
La carte de cluster du SeaBorn est un graphique matriciel qui vous permet de visualiser vos éléments matriciels en tant que carte thermique tout en affichant simultanément un regroupement de vos lignes et colonnes. Dans l'exemple suivant, nous avons apporté les bibliothèques requises. Ensuite, nous avons créé un cadre de données des employés qui comprend leurs noms, IDS, âge et salaire. Nous avons ensuite converti ce cadre de données en pandas en utilisant le PD.Fonction DataFrame. Nous définissons l'index de l'employee_data par le champ Nom via la fonction SET.
Après cela, nous avons créé une carte de cluster de ce cadre de données en appelant la fonction de cluster SeaBorn et en passant l'employee_data dans cette fonction. Un autre argument de mot-clé, Annot, est utilisé et est défini sur true. Ce paramètre nous permet de voir les nombres réels affichés sur la carte thermique de la carte du cluster.
La sortie de la carte du cluster est dans la figure suivante. Notez que nos rangées et nos colonnes sont réorganisées par Seaborn: nos lignes:
Utilisons l'exemple de jeu de données «mpg» pour créer une carte de cluster. Nous devons filtrer les données que nous envoyons à ces cartes de cluster jusqu'au nombre de colonnes dans le cadre de données uniquement.
Commencez par l'importation des bibliothèques nécessaires. Nous avons chargé l'ensemble de données de «MPG» dans la variable «DataFrame_MPG». Nous avons également utilisé la fonction Dropna pour supprimer les lignes nulles dans le cadre de données. Nous avons imprimé le nom de la colonne à l'intérieur du «MPG» DataFrame avec la taille de la colonne. Ensuite, nous avons une fonction de carte de cluster où l'ensemble du «MPG» Dataframe est passé avec les colonnes spécifiées.
Les trois colonnes sont indiquées dans la console.
Lorsque nous avons exécuté le code précédent, nous voyons une carte de cluster avec une seule colonne avec une couleur claire. En effet, les échelles de ces plusieurs colonnes sont différentes.
Exemple 3:
Il existe plusieurs options pour mettre à l'échelle les données à l'intérieur de la fonction de carte du cluster. Mais une méthode simple consiste à utiliser l'argument de l'échelle standard. Si nous voulons évoluer chaque ligne, nous devons passer une valeur de zéro comme argument. Si nous voulons évoluer chaque colonne, la valeur sera 1. Maintenant, nous avons une valeur d'échelle de 1. De plus, nous avons transmis un argument de méthode à l'intérieur de la fonction de cluster qui a attribué une valeur en tant que simple. La chaîne peut être transmise en une seule valeur, ce qui est une liaison minimale.
La carte du cluster «Iris» du cadre de données est légèrement différente dans la figure lorsque nous avons passé une échelle et des paramètres de méthode.
Exemple 4:
Ici, nous avons ajouté le paramètre ROW_COLOR à l'intérieur de la fonction de carte du cluster Seaborn. Nous avons attribué chaque couleur aux espèces de champ et tiré les informations de la colonne des espèces du cadre de données Penguins.
Conclusion
Maintenant, vous pouvez établir la carte du cluster Seaborn depuis que nous l'avons expliqué avec quelques exemples des différents paramètres passés. ClusterMap de SeaBorn a également de nombreuses alternatives pour calculer une grille de longueur ou de ressemblance à partir des données pour créer une carte thermique.