L'analyse des séries chronologiques est une technique de premier plan d'analyse des données exploratoires de l'apprentissage automatique qui nous permet de voir comment les points de données changent au fil du temps. Plusieurs déclarations de problèmes basées sur les séries chronologiques, telles que les prévisions de vente de billets, l'analyse des cours des actions, etc. La série chronologique pourrait présenter une variété de tendances difficiles à analyser simplement en regardant l'intrigue. En conséquence, le regroupement des tendances de la série chronologique est une bonne idée. Nous examinerons ce qu'est une série chronologique, ce qu'est le regroupement et comment regrouper les données de séries chronologiques.
Qu'est-ce que la série chronologique?
Une série chronologique est une collection de pointeurs de données regroupés dans l'ordre du temps. Les points de données représentent une activité qui se produit sur une période de temps. Un exemple courant est le nombre total d'actions négociées à un intervalle de temps donné, ainsi que d'autres paramètres tels que les cours des actions et leurs informations de négociation respectives à chaque seconde. Contrairement à une variable à temps continu, ces points de données de série temporelle ont des valeurs discrètes à différents moments dans le temps. En conséquence, les variables de données discrètes sont fréquemment utilisées. Les données pour une série temporelle peuvent être collectées sur n'importe quelle durée, de quelques minutes à plusieurs années. Le temps sur lesquels les données sont collectées n'ont pas de limite inférieure ou supérieure. Il existe divers problèmes de prédiction basés sur les séries chronologiques dans l'apprentissage automatique et l'apprentissage en profondeur comme la prévision du cours de l'action d'une entreprise, de la reconnaissance d'activité humaine, de la prédiction de la quantité de billets de vol, etc. Cela permet d'économiser beaucoup d'argent et aide les entreprises à prendre des décisions minutieuses avant d'investir dans quelque chose. L'exemple de tracé est donné ci-dessous montre la variation des observations avec le temps.
Qu'est-ce que le regroupement?
Le clustering est un type d'apprentissage automatique Technique d'apprentissage non supervisé. Les conclusions sont acquises à partir d'ensembles de données qui n'ont pas étiqueté les variables de sortie dans la méthode d'apprentissage non supervisée. C'est un type d'analyse de données exploratoires qui nous permet de regarder des ensembles de données multivariés.
Le clustering est l'apprentissage automatique ou l'approche mathématique dans laquelle les points de données sont regroupés en un nombre spécifié de clusters avec des fonctionnalités similaires parmi les points de données à l'intérieur de chaque cluster. Les grappes sont composées de points de données regroupés afin que l'espace entre eux soit réduit au minimum. La façon dont les grappes sont produites est déterminée par le type d'algorithme que nous choisissons. Parce qu'il n'y a pas de critère pour un bon regroupement, les conclusions tirées des ensembles de données dépendent également de quoi et de la façon dont l'utilisateur développe l'algorithme de clustering. Le clustering peut être utilisé pour résoudre des problèmes tels que la segmentation du client, les systèmes de recommandation, la détection d'anomalies, etc. L'approche de clustering K-means, dans laquelle nous n'avons pas d'étiquettes et devons placer chaque point de données dans son propre cluster, peut vous être reconnaissable. Une approche de regroupement proéminente est K-means. La figure ci-dessous montre comment nous regroupons différents points de données avec les mêmes fonctionnalités dans le même cluster.
Qu'est-ce que le regroupement des séries chronologiques?
La technique de clustering de séries chronologiques est une approche de traitement des données non supervisée pour classer les points de données en fonction de leur similitude. L'objectif est de maximiser la similitude des données entre les clusters tout en les minimisant. Une technique de base en science des données pour l'identification des anomalies et la découverte de motifs est le clustering de séries chronologiques, qui est utilisé comme sous-programme pour d'autres algorithmes plus compliqués. Cette technique est particulièrement utile lors de l'analyse des tendances dans de très grands ensembles de données de séries chronologiques. Nous ne pouvons pas différencier les tendances simplement en regardant l'intrigue de la série chronologique. Voici où vous pouvez regrouper les tendances. Différentes tendances seront ensuite regroupées en différents grappes.
Noyau K signifie
La technique du noyau fait référence à la transformation des données en une autre dimension avec un bord séparant distinct entre les groupes de données non linéaires séparables. La technique du noyau K-means utilise la même astuce que les k-means, sauf que la méthode du noyau est utilisée pour calculer la distance au lieu de la distance euclidienne. Lorsqu'il est appliqué à l'algorithme, l'approche du noyau peut trouver des structures non linéaires et est le mieux adapté aux ensembles de données du monde réel.
K signifie pour le regroupement des séries chronologiques
La méthode la plus fréquente de regroupement des séries chronologiques est la moyenne. L'approche commune consiste à aplatir les données de séries chronologiques dans un tableau 2D, avec chaque colonne pour chaque index de temps, puis à utiliser des algorithmes de clustering standard comme K-means pour regrouper les données. Cependant, les mesures de distance des algorithmes de clustering typiques, telles que la distance euclidienne, sont souvent inappropriées pour les séries chronologiques. Un moyen préférable consiste à utiliser une métrique pour comparer les tendances de la série chronologique au lieu de la mesure de distance par défaut. L'une des techniques les plus populaires utilisées pour cela est la déformation du temps dynamique.
Déformation du temps dynamique
Même si un signal est transféré dans le temps de l'autre, Dynamic Time Warping permet à un système de comparer deux signaux et de rechercher des similitudes. Sa capacité à vérifier les artefacts de la parole connus, quel que soit le tempo de parole de l'orateur le rend également utile pour les problèmes de reconnaissance de la parole. Par exemple, s'il y a deux tableaux: [1, 2, 3] et [4, 5, 6], le calcul de la distance entre eux est facile car vous pouvez simplement faire une soustraction d'élément et ajouter toutes les différences. Cependant, il ne sera pas facile une fois que la taille des tableaux est différente. Nous pouvons considérer ces tableaux comme la séquence de signaux. Le composant «dynamique» suggère que la séquence de signal peut être déplacée d'avant en arrière pour rechercher une correspondance sans accélérer ou ralentir la séquence entière. Si la déformation du temps s'étire ou rétrécit une élastique, DTW étend ou rétrécit cet élastique pour s'adapter aux contours d'une surface. Vous trouverez ci-dessous la représentation visuelle de DTW.
Étapes pour la déformation du temps dynamique
Implémentation de DTW dans Python
à partir de fastdtw import fastdtwDes cas d'utilisation de clustering séries chronologiques
Conclusion
Cet article a examiné la définition des séries chronologiques, du regroupement et de la combinaison des deux tendances de séries chronologiques de cluster. Nous avons parcouru une méthode populaire pour cela appelé Dynamic Time Warping (DTW) et les processus et l'implémentation impliqués dans son utilisation.