SCIPY STATS FIT

SCIPY STATS FIT
Python est un langage de programmation logiciel orienté objet et de haut niveau qui fournit une liste approfondie de packages qui aident son utilisateur à exécuter des logiciels plus efficacement. Cette langue a son application dans presque tous les domaines de la vie partout où l'automatisation est requise via le logiciel. Cela est dû à ses pouvoirs mathématiques et informatiques qui facilitent la mise en œuvre de différents concepts pour les programmeurs. Scipy contribue au package de bibliothèque que Python offre. Ce package de bibliothèque offre ses services en offrant diverses fonctions intégrées dans le domaine de l'apprentissage automatique, des optimisations et de l'analyse des données. Scipy Stat Fit est la fonction du Scipy qui utilise l'attribut statistique ou le module de la bibliothèque Scipy et aide à trouver le meilleur ajustement pour les ensembles de données. Le meilleur ajustement ici spécifie la distribution des données sur une limite de décision spécifique.

Procédure

À l'aide de la SCIPY STAT FIT, nous découvrirons comment implémenter la fonction statistique Fit () pour trouver la meilleure ligne d'ajustement ou la distribution pour les ensembles de données requis. La syntaxe de cette fonction sera affichée et sera ensuite expliquée à l'aide des paramètres requis par cette fonction.

Syntaxe

$ statistiques. norme.ajustement (données)

La ligne mentionnée ci-dessus est la syntaxe de la stat fit (). Cette fonction utilise le module «norme» du module de statistiques du scipy. La norme est la longueur de tout vecteur ou la distance du vecteur qui parle de la mesure dans laquelle le vecteur est étalé dans l'espace. La «données» est le paramètre d'entrée de la fonction qui fait référence aux données dont nous voulons calculer la distribution ou l'ajustement.

Exemple # 01

La fonction statistique FIT () calcule la distribution ou dit le type de distribution pour un ensemble de données basé sur la nature de ses éléments. En d'autres termes, les statistiques FIT () trouvent le meilleur ajustement pour les données pour les différents types de variables aléatoires. Pour les variables indépendantes et aléatoires, on nous donne la «distribution gaussienne» qui est connue pour être la distribution naturelle ou normale des variables de l'ensemble de données. Cet exemple calculera la distribution gaussienne pour les variables de l'ensemble de données.

Pour tout type de distribution, nous devons voir les quatre paramètres nécessaires comme: le paramètre de localisation, la forme de la distribution, l'échelle et le dernier est le seuil. Tous ces paramètres en contribuent à un type de distribution. La distribution gaussienne a la plupart de ses observations sur son apogée qui est autour de la moyenne. Pour l'implémenter, nous utiliserons «Google Collab» qui est un environnement open-source et public qui propose d'exécuter les programmes Python avec l'installation antérieure de tous ses packages. La bibliothèque requise ou le package de cet exemple sera les statistiques du SCIPY. Donc, d'abord, nous écrivons la commande «à partir des statistiques d'importation Scipy».

La prochaine étape consistera à générer de nouvelles données pour créer les variables aléatoires à l'aide de la norme du module Stat comme «Data = Stats. norme. RVS (A, B, Size = 400, Random_State = 140) », cette fonction prend les deux paramètres« A »et le« B »pour les variables indépendantes normales et la« taille »pour distribuer ces variables en nombres est sélectionnée comme «400». Maintenant, nous utiliserons les résultats de cette fonction et passerons cela au paramètre des «statistiques. fit () ”pour trouver la meilleure distribution d'ajustement pour ces données générées aléatoires.

Dans la sortie de la fonction, nous aimerions afficher le «paramètre d'emplacement» qui indique où se trouve les données sur l'axe des x et le «paramètre d'échelle» qui indique la quantité de dispersion dans les données. Le code de cet exemple est joint ci-dessous.

à partir des statistiques d'importation Scipy
a = 1
b = 1
data = statistiques.norme.RVS (a, b, size = 400, random_state = 140)
Emplacement, échelle = statistiques.norme.ajustement (données)
Imprimer (emplacement)
Imprimer (échelle)

La sortie a affiché l'emplacement et le paramètre d'échelle pour la distribution comme 1.08 et 0.949 respectivement.

Exemple # 02

Maintenant, nous utiliserons la fonction statistique FIT () pour implémenter un autre type de distribution pour l'ensemble de données ayant des variables aléatoires continues. Pour ce type de données avec des variables biaisées positivement, nous utilisons la «distribution gamma». L'asymétrie représente la quantité de distribution qui contient une asymétrie. La distribution gamma a trois paramètres aussi courants que la distribution normale e.g., échelle, seuil et forme. Mise en œuvre de cette distribution. Tout d'abord, nous importerons le module «Statistiques» de la bibliothèque Scipy. Cette bibliothèque est importée afin que nous puissions utiliser la fonction «norme» du module Statistiques pour générer les données aléatoires de la distribution gamma. Ainsi, importez cette bibliothèque en écrivant la commande suivante «à partir des statistiques d'importation Scipy».

Le module Stat aidera également à appeler la fonction fit () pour trouver la distribution des données que nous générerons. Maintenant, après l'importation des statistiques, générez les variables aléatoires continues jusqu'à la taille 400 avec le paramètre «A» et passez-le à la fonction norme comme «Statistiques. gamma. RVS (une taille = 400, random_state = 140) ". Jusqu'à cette étape, nous avons créé les données que nous souhaitons intégrer dans la distribution gamma car toutes les variables de ces données sont des variables aléatoires continues et elles ne peuvent s'adapter que dans la distribution gamma. Ensuite, installez ces données dans la distribution gamma en passant ces données au paramètre d'entrée de la fonction »Statistiques. norme. ajustement (données) ». À partir de cette distribution, nous découvrirons et afficherons les paramètres de l'échelle, du seuil et de la forme que la sortie.

à partir des statistiques d'importation Scipy
a = 1.
random_data = statistiques.gamma.RVS (A, Size = 400, Random_State = 140)
forme, échelle, seuil = statistiques.gamma.fit (random_data)
Imprimer (forme)
Imprimer (échelle)
Imprimer (seuil)

Conclusion

L'article traite du concept de trouver les distributions les mieux ajustées ou les mieux ajustées pour les données ou les variables générées de manière aléatoire, celles continues ou indépendantes. En outre, l'article traite des paramètres nécessaires à la distribution et démontre la mise en œuvre de deux types de distributions sur deux données différentes à l'aide d'exemples.