Diagramme de dispersion dans r

Diagramme de dispersion dans r
«Les représentations visuelles des données incluent des graphiques et des graphiques. Votre objectif en tant que scientifique des données est de comprendre parfaitement des quantités d'informations. Trois procédures sont impliquées dans l'analyse des données. L'obtention de données, le nettoyage et la modification des données est une partie importante du processus. Pour évaluer davantage les données, construisez un affichage visuel à partir de celui-ci. Les visualisations des données avec l'intrigue sont d'énormes outils pour rendre l'analyse compliquée plus facile à comprendre. Mais d'abord, passons par certains principes fondamentaux de tracé comme les parcelles de dispersion. Un diagramme de dispersion est un diagramme qui présente les niveaux de deux variables numériques dans un ensemble de données comme points géométriques dans un diagramme cartésien."

Quel est le tracé de dispersion dans le langage de programmation R dans Ubuntu 20.04?

La comparaison des variables se fait à l'aide de parcelles de dispersion. Lorsque nous devons savoir quelle autre variable est influencée par une autre, nous devons comparer les deux variables. Le tracé de dispersion est un groupe de points pointillés sur les axes x et y qui représentent des données distinctes de données. La disposition des points générés montre une corrélation entre deux variables lorsque leurs valeurs sont affichées le long de l'axe des x et de l'axe Y.

Syntaxe du tracé de dispersion dans le langage de programmation R dans Ubuntu 20.04

En R, vous pouvez faire un diagramme de dispersion dans une variété de méthodes. Le tracé (x, y), dans lequel les paramètres x et y sont des vecteurs numériques spécifiant les positions (x, y) sur le tracé, est la fonction la plus élémentaire.

Terrain (x, y, main, xlab, ylab, xlim, ylim, axes)

Comme mentionné ci-dessus, x tous les paramètres x sont obligatoires pour représenter graphiquement le tracé de dispersion, mais le tracé de diffusion prend également en charge certains paramètres facultatifs, qui sont décrits comme suit:

X: Les coordonnées horizontales sont définies avec cette option.

Y: Les coordonnées verticales sont définies avec cette option.

XLAB: L'étiquette de l'axe horizontal.

YLAB: L'étiquette de l'axe vertical.

principal: Le sujet du graphique est défini par le paramètre principal.

Xlim: Le paramètre Xlim est utilisé pour représenter les valeurs x.

ylim: L'option ylim est utilisée pour tracer les valeurs de y.

Axes: Cette option détermine si le tracé doit inclure les deux axes.

Comment construire le tracé de dispersion dans le r dans Ubuntu 20.04?

Regardons un exemple pour montrer comment nous pouvons utiliser la fonction de tracé pour créer un point de dispersion. Nous utiliserons l'ensemble de données d'échantillon dans nos exemples, qui est un ensemble de données préconfiguré dans l'environnement R.

Exemple # 1: Utilisation de la méthode du tracé pour construire le tracé de dispersion R dans Ubuntu 20.04

La méthode de tracé () dans le langage de programmation R peut être utilisée pour faire un tracé de dispersion.

Pour construire le tracé de dispersion, nous avons besoin de l'ensemble de données. Alors ici, nous avons inséré l'ensemble de données usarrests de la langue r. Nous avons sélectionné les deux colonnes à partir de cet ensemble de données pour fabriquer le tracé de dispersion. Les premières entrées sont indiquées de l'ensemble de données usarrests. Ensuite, nous avons la fonction de tracé où les deux entrées, x et y, sont définies. Pour l'entrée X, la colonne «Murder» est sélectionnée, et pour l'entrée Y, nous avons la colonne «Urbanpop». Certaines entrées facultatives sont passées à l'intérieur de la fonction, comme les étiquettes pour X et Y sont définies avec le XLAB et le YLAB. Dans la gamme Xlim et Ylim, les valeurs des paramètres x et y sont définies. De plus, le titre du tracé de dispersion est défini en appelant l'option «Main."

La sortie du diagramme de dispersion est générée ci-dessous.

Exemple # 2: Utilisation de la méthode de la paire pour construire les matrices de tracé de dispersion r dans Ubuntu 20.04

Nous utilisons une matrice de diagrammes de dispersion lorsque nous avons plusieurs variables et que nous voulons corréler une variable avec les autres. Les matrices de spot -plot sont créées à l'aide de la méthode paires ().

Ici, nous avons sélectionné l'échantillon de jeu de données Iris à partir de la langue R. Ensuite, imprimez les six premières entrées de l'ensemble de données IRIS. Aux colonnes de l'iris de jeu de données, nous avons appliqué la méthode de la paire. Chaque colonne sera associée à la colonne restante de la fonction de paire.

Les métriques de sport sont visualisées dans la figure suivante.

Exemple # 3: Utilisation de valeurs ajustées dans un diagramme de dispersion dans R dans Ubuntu 20.04

Vous pouvez étendre le graphique en ajoutant un nouveau niveau de données. En régression linéaire, vous pouvez visualiser la valeur ajustée. Pour construire un diagramme de dispersion, nous utilisons les méthodes GGPLOT () et geom_point () du package GGPLOT2.

Commencez par cet exemple; Nous avons importé le module GGPLOT2 de R. Ensuite, nous avons utilisé la méthode GGPLOT où le nom de l'ensemble de données «mtcars» est donné. La fonction «AES» est utilisée à l'intérieur de la méthode GGPLOT pour créer les journaux pour les paramètres x et y. Pour la régression linéaire, un ensemble supplémentaire de fonctionnalités, «stat_smooth», est utilisé. La méthode de lissage est contrôlée par l'option stat_ lisse (). L'erreur standard (SE) est maintenue fausse et la ligne de la taille est définie sur la valeur 1.

Exemple n ° 4: Utilisation d'un nom dynamique pour le titre de l'intrigue de dispersion dans R dans Ubuntu 20.04

Nous n'avons pas encore mis de données sur les parcelles. Des graphiques d'information sont requis. Sans recourir à une documentation supplémentaire, le lecteur devrait être en mesure de comprendre le message derrière l'analyse des données simplement en jetant un coup d'œil à l'intrigue. En conséquence, de bonnes étiquettes sont nécessaires lors de l'utilisation de parcelles. Les étiquettes peuvent être ajoutées à l'aide de la fonction labs ().

Nous avons une variable ici en tant que dispersion_graph à laquelle la méthode GGPLOT est attribuée. Le GGPLOT définit son paramètre comme l'exemple ci-dessus mais pour un ensemble de données différent. L'ensemble de données utilisé ici est l'iris. Ensuite, nous avons à nouveau utilisé la variable Scatter_garph, et cette fois, nous avons réglé les noms dynamiques sur le tracé de Scatter.

Vous pouvez voir les informations supplémentaires sur le diagramme de dispersion à l'intérieur de la figure suivante.

Exemple n ° 5: Utilisation de la méthode 3dscatterplot pour construire le tracé de dispersion dans R dans Ubuntu 20.04

Le package de dispersion3d vous permet de faire un diagramme de dispersion tridimensionnel. Scatterplot3d est une technique utile qui utilise une syntaxe (x, y, z).

Nous avons inclus le module Scatterplot3d à l'intérieur de notre script R ci-dessus. Maintenant, nous pouvons utiliser la fonction Satterplot3d. À la fonction Sattrepplot3d, nous avons passé trois paramètres qui sont les colonnes sélectionnées dans la croissance de la dents de données.

Le bloc de dispersion 3D est rendu dans le snap graphique suivant.

Conclusion

Cet article vise à vous informer de l'intrigue de dispersion dans R. Les parcelles de dispersion sont des graphiques de dispersion qui sont utilisés pour afficher les points de données des paramètres (généralement deux, mais trois sont possibles). Le but principal du tracé R Scatters est d'aider à visualiser les données et si les variables numériques ont une relation. Nous avons vu diverses approches qui nous aident à créer le diagramme de dispersion de la manière la plus simple. Chaque méthode a sa fonctionnalité et est très facile à comprendre.