Quantile en r

Quantile en r

Avant de construire des algorithmes d'apprentissage automatique sur un ensemble de données, une analyse statistique inférentielle est essentielle. L'obtention des inférences statistiques à partir de données fait également partie de ce processus. Dans les statistiques, quelques concepts clés décrivent la variabilité d'une variable numérique. Ces termes sont IQR, quartiles, quantiles, moyenne et médiane. Ils aident à identifier les anomalies dans la colonne et la distribution de la colonne. Ce message est pour déterminer le quantile de la colonne. La variabilité des données est mesurée à l'aide des fonctions quantiles. Après avoir triage les données, vous pouvez utiliser des quantiles pour diviser les nombres dans une distribution donnée en sous-groupes égaux. Nous pouvons facilement calculer les quantiles en R en utilisant la fonction quantile, qui renvoie tous les quantiles de 0%, 25%, 50%, 75% et 100%.

Quantiles dans le langage de programmation R dans Ubuntu 20.04

Le quantile est une fonction générique qui génère des quantiles d'échantillon pour des probabilités spécifiées. Une probabilité de 0 correspond à la plus petite observation, tandis qu'une probabilité de 1 correspond au plus grand. Là, nous avons une syntaxe pour les quantiles utilisés dans un langage de programmation R.

1
quantile (x, probs = seq (0, 1, 1/4), na.rm = false, noms = true, type = 5, chiffres = 5,…)

Ce qui suit est une description de l'argument précédent passé à l'intérieur de la fonction quantile:

X: Un élément d'une catégorie pour laquelle une fonction a été spécifiée ou un vecteur numérique où les quantiles d'échantillons sont nécessaires. Sauf si na.RM est «vrai», les valeurs NA et NAN ne peuvent pas être utilisées dans les vecteurs numériques.

problème: La probabilité avec les valeurs dans un vecteur numérique; Les valeurs en dehors de cette varie jusqu'à «2E-14» sont reconnues et transférées au point de terminaison le plus proche suivant.

n / A.RM: Si vrai, toutes les valeurs de Na et Nan en x sont éliminées avant que les quantiles ne soient évalués.

Des noms: Quand c'est vrai, la fonctionnalité comprend un attribut de nom. Réglé sur «False» pour réduire le temps nécessaire pour résoudre un problème avec un grand nombre de variables.

Chiffres: Lorsque vous êtes vrai, implémentez la précision pour utiliser des pourcentages de formatage. En interne, dans les versions R avant 4.0.x, cela a été défini sur Max (2, getOption («Digits»)).

Cet article vous apprendra ce que sont les quantiles et comment les calculer en R (quartiles, octiles, déciles et centiles). Pour obtenir des échantillons de quantiles pour un ensemble de données, utilisez l'utilitaire quantile () dans R.

Exemple 1: Utilisation d'une fonction quantile simple pour les vecteurs de déplacement dans R dans Ubuntu 20.04

Voyons comment la fonction quantile en R fonctionne avec un exemple simple qui génère les quantiles de l'entrée de données. Nous devons créer des données pour appliquer les fonctions quantiles. Ici, nous avons défini les données variables à l'intérieur, qui contient les données du vecteur. Ensuite, la fonction quantile est utilisée où nous avons passé les données précédemment spécifiées avec la séquence déclarée. Lors de l'exécution de cette commande de fonction quantile, nous avons obtenu les quantiles des vecteurs comme indiqué dans l'invite R suivante:

Dans l'invite R suivante, nous avons à nouveau utilisé la fonction quantile pour calculer les déciles. Pour cela, nous avons passé la séquence 0, 1 et ¼.

Ici, nous avons évalué l'intérêt des quantiles aléatoires. Nous avons défini les données à l'intérieur de l'argument Probs, montrant simultanément la sortie des centiles. Notez que la fonction quantile divise les données en parties égales, la médiane servant de centre, la moitié inférieure restante servant de quartile inférieur et la moitié supérieure servant de quartile supérieur.

Exemple 2: Utilisation de la fonction quantile pour calculer la colonne dans une trame de données dans R dans Ubuntu 20.04

Nous pouvons également trouver le quantile de la colonne donnée à partir du cadre de données. Nous avons défini les données dans la fonction de trame de données dans le script R suivant. Nous avons généré des listes avec les noms «list1», «list2» et «list3» ayant des valeurs numériques aléatoires.

Après cela, appelez la fonction quantile et saisissez le nom de la colonne avec le symbole «$» comme comment nous avons spécifié «$ list3» pour quantile. Comme vous pouvez le voir, la fonction quantile met les valeurs d'entrée dans l'ordre croissant avant de retourner les centiles nécessaires.

Nous pouvons utiliser la fonction sapply () comme indiqué à l'intérieur de l'invite R si nous voulons évaluer les quantiles de nombreuses colonnes à la fois. Nous avons transmis l'option de fonction (x) à l'intérieur de la fonction sapply avec la fonction quantile, qui a les paramètres X et Probs. La sortie de cette fonction affiche tous les quantiles des colonnes à la fois.

Exemple 3: Utilisation de la fonction quantile.04

NANS peut être trouvé dans presque toutes les situations. Ces NANS, également connus sous le nom de valeurs manquantes, deviennent de plus en plus courants dans le monde numérique basé sur les données d'aujourd'hui. Si les données contient ces nombres manquants, la sortie peut contenir des NAN ou des erreurs. Nous avons également des données vectorielles qui incluent certaines valeurs NA appelées données vectorielles dans la fonction quantile. L'exception est lancée par le compilateur R illustré ci-dessous:

Nous pouvons supprimer cette erreur en utilisant le paramètre quantile na.RM. Nous devons régler le na.Valeur RM à «vrai», ce qui nous aide à éliminer cette exception NANS. Comme vous pouvez le voir dans la sortie, nous avons obtenu les valeurs de centile et supprimé avec succès les valeurs NA.

Exemple 4: Utilisation de la fonction quantile avec le paramètre Probs dans R dans Ubuntu 20.04

Il existe également l'option «Probs», qui vous permet de spécifier les centiles requis. L'argument Probs, également connu sous le nom de l'argument des «probabilités», devrait être compris entre 0 et 1. À l'intérieur du script R suivant, nous avons utilisé l'option Probs avec les valeurs 33 et 66 dans la fonction quantile. La sortie a un message d'erreur que les problèmes sont en dehors de la plage.

Lors de la définition de l'option Probs dans la plage de 0 et 1, il affiche les valeurs de centiles plutôt que de fausses valeurs.

Conclusion

Nous avons essayé de faire de notre mieux pour décrire et explorer la fonction R Quantile () en plusieurs dimensions en utilisant divers exemples. La forme quantile est la fonction la plus précieuse dans l'analyse des données car elle montre efficacement des données supplémentaires sur des informations spécifiques. Nous avons illustré quelques exemples montrant clairement le fonctionnement de la fonction quantile. J'espère que vous comprenez maintenant mieux la fonction quantile () du R.