Scipy K-means

Scipy K-means
Le langage de programmation Python est le langage le plus utilisé ces jours-ci depuis que ses bibliothèques libres open source attirent les développeurs. Les débutants et les développeurs experts préfèrent travailler à Python plutôt que dans tout autre langage de programmation de haut niveau. Scipy est l'une de ces bibliothèques incroyables de Python qui facilite la programmation. La bibliothèque Scipy est construite sur la bibliothèque Numpy, étendant ses fonctionnalités et ses méthodes. Ici, nous explorerons la méthode Scipy K-means. Pour vous aider à comprendre les fonctions de l'algorithme K-means dans un programme Python, nous vous montrerons quelques exemples clairs et pratiques.

Qu'est-ce que le regroupement dans Python003f?

Le concept général de clustering fait des groupes de types de données similaires. C'est le processus de séparation des données avec les mêmes caractéristiques en différents types de clusters. Les soins de santé, la finance, la vente au détail et d'autres domaines utilisent couramment les techniques de clustering pour effectuer les différentes tâches analytiques. Le clustering dans Python remplit les mêmes fonctionnalités à l'aide d'algorithmes extrêmement simples. Il existe de nombreuses méthodes de regroupement dans Python mais Scipy ne fournit que deux modules pour le clustering qui sont les K-means et le clustering hiérarchique. Nous dédions cet article au module K-means. Par conséquent, avec l'aide d'exemples, nous découvrirons le regroupement K-Means de la bibliothèque Scipy.

Quel est l'algorithme de clustering K-means?

Il faut un ensemble de données et le nombre de clusters à faire en entrée et renvoyer le nombre spécifié de clusters des données données. Il suit le mécanisme de distance euclidienne pour faire les grappes. Tout d'abord, l'algorithme K-Means trouve le centroïde de cluster, puis catégorise chaque élément à sa moyenne la plus proche, répète le processus pour le nombre donné de temps de cluster et crée le nombre spécifié de grappes des données données.

Qu'est-ce que Scipy K-means clustering?

La bibliothèque Scipy fournit une technique de clustering K-means qui est la même approche de partitionnement où chaque groupe de données est représenté avec le centroïde calculé. Dans le centroïde calculé, tous les points de données ont la même distance moyenne du centre du cluster. La bibliothèque Scipy propose deux packages de clustering, VQ et hiérarchie, qui offrent différentes méthodes de clustering. Le cluster.L'emballage de clustering VQ est le module de quantification vectoriel qui fournit la méthode de clustering k-means. La quantification des vecteurs est très utile dans la distorsion et la réduction de la précision d'amélioration. Pour faire des clusters avec la méthode K-Means de la bibliothèque Scipy, nous devons suivre les étapes suivantes:

Tout d'abord, installez le package Scipy avec l'énoncé suivant:

Il est très important d'installer toutes les bibliothèques avant d'utiliser toute méthode de fonction de la bibliothèque. Par conséquent, si vous n'avez pas encore installé la bibliothèque Scipy, installez-la avec l'instruction PIP Installer Scipy. Après cela, fournissez les données pour fabriquer le cluster et le numéro du cluster qui doit également être fait. Ensuite, normalisez les données avec l'énoncé suivant:

Ici, la fonction Whiten des packages VQ est utilisée pour normaliser les données. Le paramètre «Data» représente les données d'entrée et le paramètre «CF» est utilisé pour vérifier si les données d'entrée ne contiennent que des nombres finis ou non. L'étape suivante consiste à localiser le centroïde des données fournies. L'énoncé suivant est utilisé pour calculer le centroïde des données:

Les paramètres «données» et «cf» sont les mêmes que la fonction Whiten et représentent les mêmes informations. Les paramètres supplémentaires sont «k», «itérations» et «seuil» où K représente le nombre de grappes à faire, l'itération représente le nombre d'itérations à effectuer par la fonction et le seuil représente la valeur de seuil pour la terminaison de la fonction. Maintenant, démontrons un exemple afin que nous puissions pratiquement voir comment fonctionne la fonction K-means.

Exemple:

Ici, nous allons donner un exemple pour démontrer les étapes que nous avons expliquées plus tôt. Lorsque vous avez un exemple pratique complet, vous pouvez facilement comprendre le concept. Passons au code donné dans la capture d'écran suivante:

Puisque nous avons déjà installé la bibliothèque Scipy, il n'est pas nécessaire de l'installer explicitement. La première ligne de code est utilisée pour importer la bibliothèque Numpy comme «NP» dans le programme. Après ça, le scipy.grappe.Le package VQ est importé dans le programme pour utiliser les modules Whiten, Kmeans et VQ. La variable «données» est initialisée avec un tableau 2D qui est ensuite transmis à la fonction Whiten pour la normalisation des données. Les données normalisées peuvent être visualisées dans la sortie lorsque l'instruction d'impression est utilisée pour l'afficher.

La fonction kmeans () calcule le centroïde des données données. Les données données sont transmises à la fonction Kmeans avec le nombre de clusters à faire. La valeur centroïde de chaque élément de données peut également être affichée dans la sortie lorsque l'instruction IMPRESS est utilisée pour les afficher. La moyenne des données est également prise et affichée dans la sortie avec l'instruction PRINT.

Enfin, pour le regroupement, la fonction VQ est utilisée. Les données données et les valeurs de centroïde calculées sont transmises à la fonction VQ et affichées dans la sortie à l'aide de l'instruction PRINT. Pour obtenir la sortie complète en un seul endroit, vous pouvez vous référer à la capture d'écran suivante:

Comme vous pouvez le voir, nous avons d'abord les données normalisées qui sont renvoyées par la fonction Whiten. Ensuite, nous avons les centroïdes pour chaque valeur de données. Après cela, la moyenne des données est fournie, suivie par les index de cluster. Vous pouvez exécuter ce code dans n'importe quel compilateur Python de votre système comme Spyder, Pypy, Jupiter, etc. Vous pouvez également utiliser les compilateurs en ligne comme Collaboratory qui est également connu sous le nom de Colab.

Conclusion

Cet article est dédié à l'algorithme de clustering K-Means. Ici, nous avons appris le clustering, le clustering K-means et le clustering k-means avec la bibliothèque Scipy. Tout d'abord, nous avons appris le concept de base du regroupement. Ensuite, nous avons exploré la méthode spécifique du cluster K-means. Enfin, nous avons appris la méthode complète K-Means fournie par la bibliothèque Scipy. Nous avons également démontré un exemple pour expliquer chaque étape.