«Une technique statistique appelée intérim de voisin stochastique en T place chaque point de données sur une carte à deux ou trois dimensions pour visualiser les données de haute dimension. Cette opération est effectuée de manière similaire par des méthodes d'analyse des composants principaux (ACP), qui sont également utilisées pour projeter pour réduire les dimensions de la grande dimension. Cet article discutera de T-SNE, comment il diffère du PCA, et comment il fonctionne dans Sklearn."
Qu'est-ce que la réduction de la dimensionnalité?
La réduction de la dimensionnalité code pour les données multidimensionnelles (N-dimensions) avec des caractéristiques abondantes en 2 ou 3 dimensions. De nombreuses fonctionnalités d'entités qui doivent être classées sont utilisées dans les problèmes de classification d'apprentissage automatique. La formation de visualisation des données serait plus complexe et les exigences de stockage augmenteraient à mesure que davantage de fonctionnalités auraient été utilisées. Ces caractéristiques sont fréquemment connectées. En conséquence, le nombre de fonctionnalités peut être réduit. Le nombre de fonctionnalités peut être abaissé s'il s'avère que les trois fonctionnalités utilisées sont connectées. Si une seule fonctionnalité est nécessaire, les données réparties sur l'espace 3D peuvent être projetées dans une ligne pour produire des données 1D ou sur un plan 2D si deux fonctionnalités sont nécessaires.
Qu'est-ce que T-SNE?
Les données de grande dimension sont projetées en dimensions inférieures en utilisant l'approche d'apprentissage automatique non supervisé connu sous le nom de voisin stochastique distribué en T (T-SNE), créé en 2008 par Laurens van der Maaten et Geoffery Hinton. Il est principalement utilisé pour l'exploration des données et la visualisation des données à haute dimension. T-SNE vous aide à comprendre l'organisation des données dans un espace de grande dimension.
Comment fonctionne T-SNE?
La distribution de probabilité des voisins entourant chaque point est modélisé à l'aide de l'algorithme T-SNE. Le groupe de points le plus proche de chaque point de ce contexte est appelé les voisins. Le modèle pour cela dans l'espace d'origine à haute dimension est une distribution gaussienne.
Une distribution en T est utilisée pour simuler cela dans l'espace de sortie bidimensionnel. Le but de cette technique est de trouver une cartographie sur l'espace 2D qui minimise les disparités entre les points globaux de ces deux distributions. Le principal facteur qui influence le montage est connu sous le nom de confusion. Le nombre de voisins les plus proches considérés tout en correspondant aux distributions d'origine et ajustées pour chaque point est généralement équivalente à la complexité.
En quoi la PCA est-elle différente de T-SNE
PCA | t-sne |
C'est une technique linéaire pour la réduction des dimensions. | C'est une technique non linéaire pour la réduction des dimensions. |
Cela fait un effort pour maintenir la structure globale des données. | Cela fait un effort pour maintenir la structure locale des données |
Aucun hyperparamètre n'est impliqué | Cela implique des hyperparamètres tels que la perplexité, le taux d'apprentissage et le nombre d'étapes. |
Ne gère pas bien les valeurs aberrantes | Il peut gérer les valeurs aberrantes. |
Implémentation de T-SNE dans Sklearn
# Importation de bibliothèques
Importer Numpy comme NP
de Sklearn.Mélange Import Tsne
# Création de l'ensemble de données
X = np.Array ([[0, 0, 0, 1], [0, 1, 1, 1], [1, 0, 1, 0], [1, 1, 1, 0]])
# projeter les données pour réduire les dimensions
X_projected = tsne (n_components = 2, apprentissage_rate = 'auto', init = 'random', perplexity = 3).fit_transform (x)
Imprimer ("La nouvelle forme des données est", x_project.forme)
Sortir
La nouvelle forme des données est (4, 2)
Conclusion
Nous avons appris l'algorithme T-SNE, qui est utilisé pour convertir les données de haute dimension en plus bas et finalement visualiser facilement. Nous avons également vu pourquoi nous avons besoin d'algorithmes de réduction de la dimensionnalité et comment T-SNE est différent de ses algorithmes alternatifs: PCA. Nous avons également implémenté T-SNE dans Sklearn en utilisant le module «collecteur» et des données à 4 dimensions projetées en 2 dimensions.