Module statistique à Python

Module statistique à Python
Si vous êtes dans le monde de la recherche, les statistiques sont d'une importance capitale! Et Python propose de nombreux modules pour les statistiques, mais celui dont nous parlerons aujourd'hui s'appelle le module statistique. C'est un module simple, pas vraiment pour les statistiques avancées mais pour ceux qui ont juste besoin d'un calcul simple et rapide. Dans ce tutoriel, nous allons passer en revue le module statistique à Python.

Module statistique

Le module statistique fournit des fonctions simples pour calculer les statistiques d'un ensemble de données. Ils affirment qu'ils ne sont pas en concurrence avec Numpy, Scipy ou d'autres logiciels tels que SPSS, SAS et MATLAB. Et en effet, c'est un module très simple. Il ne fournit pas de tests paramétriques ou même non paramétriques. Au lieu de cela, il peut être utilisé pour faire des calculs simples (bien que je pense que même Excel peut faire de même). Ils affirment en outre qu'ils soutiennent INT, Float, décimales et fractions.

Le module statistique peut mesurer (1) les moyennes et les mesures de l'emplacement central, (2) les mesures de l'écart et (3) les statistiques des relations entre deux entrées.

Statistiques.moyenne()

Le module statistique contient un grand nombre de fonctions. Nous ne couvrirons pas chacun, mais plutôt quelques-uns d'entre eux. Dans ce cas, l'ensemble de données est placé dans une liste. La liste est ensuite transmise à la fonction.

Pour les entiers:

principal.Statistiques d'importation PY
x = [1, 2, 3, 4, 5, 6]
moyenne = statistiques.Moyenne (x)
Imprimer (moyenne)

Lorsque vous exécutez ce dernier, vous obtenez:

principal.py 3.5

Pour les fractions, la terminologie est légèrement différente. Vous devrez importer le module appelé fractions. De plus, vous devez placer la fraction entre parenthèses et écrire une capitale F devant elle. Ainsi 0.5 serait égal à F (1,2). Ce n'est pas possible pour les grands ensembles de données!

principal.Statistiques d'importation PY
à partir des fractions, importe la fraction comme f
x = [f (1,2), f (2,3), f (3,4), f (4,5), f (5,6), f (6,7)]
moyenne = statistiques.Moyenne (x)
Imprimer (moyenne)

Lorsque vous exécutez ce dernier, vous obtenez:

principal.PY 617/840

Dans la plupart des travaux de recherche, le type de nombre le plus courant rencontré est la valeur décimale, et c'est beaucoup plus difficile à accomplir avec le module statistique. Vous devez d'abord importer le module décimal, puis mettre chaque valeur décimale de devis (ce qui est absurde et peu pratique si vous avez de grands ensembles de données).

principal.Statistiques d'importation PY
à partir de la décimale décimale comme d
x = [d ("0.5 "), D (" 0.75 "), D (" 1.75 "), D (" 2.67 "), D (" 7.77 "), D (" 3.44 ")]
moyenne = statistiques.Moyenne (x)
Imprimer (moyenne)

Lorsque vous exécutez ce dernier, vous obtenez:

principal.py 2.81333333333333333333333333

Le module statistique propose également le FMEAN, la moyenne géométrique et la moyenne harmonique. Statistiques.médian () et statistiques.mode () sont similaires aux statistiques.moyenne().

Statistiques.variance () et statistiques.stdev ()

Dans la recherche, très, très rarement la taille de votre échantillon est si grande qu'elle est égale ou est approximativement égale à la taille de la population. Donc, nous examinerons la variance de l'échantillon et l'écart-type de l'échantillon. Cependant, ils offrent également une variance de population et un écart-type de la population.

Encore une fois, si vous souhaitez utiliser des décimales, vous devez importer le module décimales, et si vous souhaitez utiliser des fractions, vous devez importer le module de fractions. Ceci, en termes d'analyse statistique, est plutôt absurde et très peu pratique.

principal.Statistiques d'importation PY
à partir de la décimale décimale comme d
x = [d ("0.5 "), D (" 0.75 "), D (" 1.75 "), D (" 2.67 "), D (" 7.77 "), D (" 3.44 ")]
var = statistiques.variance (x)
imprimer (var)

Lorsque vous exécutez ce dernier, vous obtenez:

principal.py 7.144266666666666666666666667

Alternativement, l'écart type peut être calculé en faisant:

principal.Statistiques d'importation PY
à partir de la décimale décimale comme d
x = [d ("0.5 "), D (" 0.75 "), D (" 1.75 "), D (" 2.67 "), D (" 7.77 "), D (" 3.44 ")]
std = statistiques.stdev (x)
imprimer (std)

Lorsque vous exécutez ce dernier, vous obtenez:

principal.py 2.672876103875124748889421932

Corrélation de Pearson

Pour une raison quelconque, bien que les auteurs du module statistique ont ignoré les tests ANOVA, les tests en T, etc… ils ont inclus la corrélation et la régression linéaire simple. Attention, la corrélation de Pearson est un type spécifique de corrélation utilisé uniquement si les données sont normales; c'est donc un test paramétrique. Il y a un autre test appelé Spearman Corrélation qui peut également être utilisé si les données ne sont pas normales (ce qui a tendance à être le cas).

principal.Statistiques d'importation PY
x = [1.11, 2.45, 3.43, 4.56, 5.78, 6.99]
y = [1.45, 2.56, 3.78, 4.52, 5.97, 6.65]
Corr = statistiques.corrélation (x, y)
imprimer (corr)

Lorsque vous exécutez ce dernier, vous obtenez:

principal.py 0.9960181677345038

Régression linéaire

Lorsqu'une simple régression linéaire est effectuée, elle déteste une formule:

y = pente * x + interception

Excel fait cela aussi. Mais le plus que ce module peut faire est d'imprimer la valeur de la pente et de l'interception à partir de laquelle vous pouvez recréer la ligne. Excel et SPSS proposent des graphiques pour accompagner l'équation, mais rien de tout cela avec le module statistique.

principal.Statistiques d'importation PY
x = [1.11, 2.45, 3.43, 4.56, 5.78, 6.99]
y = [1.45, 2.56, 3.78, 4.52, 5.97, 6.65]
pente, interception = statistiques.linear_regression (x, y)
imprimer ("la pente est% s"% pente)
imprimer ("L'interception est% s"% intercepte)
imprimer ("% s x +% s = y"% (pente, interception))

Lorsque vous exécutez ce dernier, vous obtenez:

principal.Py la pente est 0.9111784209749394
L'interception est 0.46169013364824574
0.9111784209749394 x + 0.46169013364824574 = Y

Covariance

De plus, le module statistique peut mesurer la covariance.

principal.Statistiques d'importation PY
x = [1.11, 2.45, 3.43, 4.56, 5.78, 6.99]
y = [1.45, 2.56, 3.78, 4.52, 5.97, 6.65]
COV = statistiques.covariance (x, y)
Imprimer (CoV)

Lorsque vous exécutez ce dernier, vous obtenez:

principal.py 4.279719999999999

Bien que Python propose un module appelé module statistique, il ne s'agit pas de statistiques avancées! Attention, si vous souhaitez réellement analyser votre ensemble de données, alors optez pour n'importe quel module autre que le module statistique! Non seulement il est trop simple, mais aussi toutes les fonctionnalités qu'il propose peut être facilement trouvée dans Excel également. De plus, il n'y a que deux tests - la corrélation Pearson et la régression linéaire simple - que ce module offre en termes de tests. Il n'y a pas d'anova, pas de test t, pas de chi carré, ou de tout autre! Et de plus, si vous avez besoin d'utiliser des décimales, vous devez invoquer le module décimal, qui peut être frustrant pour les ensembles de données importants et très importants. Vous n'attraperiez personne qui a besoin d'un vrai travail statistique effectué en utilisant ce module (optez avec SPSS si vous avez besoin de choses avancées), mais si c'est un plaisir simple que vous cherchez, alors ce module est pour vous.

Codage heureux!