Début avec RStudio sur Ubuntu Linux

Début avec RStudio sur Ubuntu Linux
Ce tutoriel illustrera comment installer rstudio sur Ubuntu 20.04.

RStudio fournit un environnement de développement intégré pour gérer le langage de programmation gratuit «R», qui est disponible sous la licence de GNU. RStudio est un environnement informatique idéal pour générer des visualisations statistiques détaillées, et en tant que telle, est utilisée par les statisticiens du monde entier.

RStudio se trouve également être disponible en tant que logiciel et en tant qu'application de serveur, utilisé par une variété de distributions Linux différentes et pour Windows et MacOS.

Télécharger le langage de programmation R (prérequis)

L'application de bureau RSTUDIO a besoin du langage de programmation R pour fonctionner sur les distros Linux. Il est nécessaire de télécharger une version R compatible avec votre système d'exploitation Linux. Vous pouvez le télécharger à l'aide d'un référentiel logiciel.

1- Téléchargement R avec le navigateur Web

Si vous n'êtes pas en mesure d'obtenir R du Centre logiciel, cela signifie que le référentiel doit être mis à jour en premier. Vous pouvez simplement sauter tout cela et le télécharger sur le Web en tapant ce lien:

https: // cran.studio.com

Dans la zone de recherche sur votre navigateur Web. Leur page d'accueil devrait ressembler à la capture d'écran ci-dessous:

2- Téléchargement R à partir du terminal Linux

Fixez le terminal CLI, tapez la commande ci-dessous et appuyez sur Entrée:

Ensuite, exécutez une mise à jour avec les commandes ci-dessous:

$ sudo apt-get updat

Cette commande va récupérer les mises à jour de R et acquérir tous les fichiers pertinents du référentiel Ubuntu principal.

Puis émettez la commande suivante pour installer r:

La commande ci-dessus passe par la liste des packages, révélant la quantité d'espace disque qu'il remplira, puis demande la confirmation. Appuyez sur la touche «Y» de votre clavier pour continuer avec l'installation.

La sortie confirmera très probablement l'installation.

Vous pouvez le rechercher dans la zone de recherche comme illustré ci-dessous:

Installation de rstudio sur Ubuntu 20.04 avec terminal de commande

Avec le langage de programmation hôte installé, nous pouvons maintenant procéder à l'installation de RStudio. Pour démontrer l'installation, nous utiliserons le terminal de la ligne de commande.

Lancez le terminal et émettez ce qui suit

$ sudo apt-get install gdebi-core

Vous serez invité à entrer le mot de passe racine. Une fois que vous avez saisi le mot de passe, l'installation du package commencera

$ wget https: // download1.rstudio.org / bureau / bionic / amd64 / rstudio-1.3.1093-AMD64.deb

Le package en ligne RSTUDIO a maintenant été connecté et est transféré à votre disque dur.

On vous demandera de saisir à nouveau le mot de passe racine. Entrez le mot de passe pour faire lire et charger la liste des packages.

L'installé demandera la permission de continuer, appuyez sur la touche Y de votre clavier.

La sortie vérifiera l'installation, comme indiqué ci-dessous.

Commencer avec RStudio:

Pour lancer Rstudio, rendez-vous dans la zone de recherche et recherchez RStudio. Vous le verrez dans l'une des listes comme indiqué ci-dessous:

Cliquez sur l'icône RStudio pour le lancer.

Enquêter sur des ensembles de données avec rstudio

Avec rstudio, vous pouvez visualiser toutes les données sous forme de graphiques, de tables et de graphiques.

Pour comprendre comment les données sont représentées visuellement dans RStudio, prenons l'exemple de l'échantillon de recensement de 2010 pour chaque code postal comme exemple.

Le processus d'analyse des données peut être vaguement réduit aux quatre étapes suivantes:

Données brutes à 1 import

Vous pouvez importer les données brutes directement à partir du Web dans RStudio en le faisant systématiquement dans la fenêtre de la console avec la commande ci-dessous:

$ CPD <- read.csv(url("https://data.lacity.org/api/views/nxs9-385f/rows.csv?accessType=DOWNLOAD")

Avec la commande exécutée, RStudio obtiendra les données en tant que fichier CSV à partir du Web, et le contenu sera affecté à la variable CPD.

Une autre façon d'importer des données dans RStudio est en téléchargeant manuellement l'ensemble de données sur votre disque dur, puis en ouvrir le contenu avec la fonction de données d'importation de RSTUDIO.

Rendez-vous sur l'option Importer DataSet dans l'onglet Environnement et sélectionnez le fichier de jeu de données à télécharger. Cliquez sur OK et vous afficherez la boîte de dialogue sur l'ensemble de données. C'est là que vous spécifierez les paramètres, ainsi que les noms et décimales. Lorsque vous avez terminé, cliquez simplement sur Importer, et l'ensemble de données sera ajouté à la RStudio, et une variable sera affectée à son nom.

Pour voir quels ensembles de données sont utilisés, émettez la commande ci-dessous avec la variable attribuée à un ensemble de données:

$ View (CPD)

2 - Manipuler les données

Maintenant que vous avez importé l'ensemble de données, vous pouvez faire beaucoup pour transformer ces données. Les données sont manipulées par des fonctionnalités de transformation. Supposons que vous souhaitez visiter un certain tableau dans l'ensemble de données. Si nous devions aller à la colonne de population totale dans notre ensemble de données, nous entrerions la commande ci-dessous:

$ cpd $ Population totale

Les données sont également récupérables sous la forme d'un vecteur:

$ CPD [1,3]

La fonction de sous-ensemble dans RStudio nous permet d'interroger l'ensemble de données. Disons que nous devons mettre en évidence les lignes où le ratio mâle / femelle est positif. Pour choisir ces lignes, vous émettez la commande suivante:

$ a <- subset(cpd , Total Males > Total des femmes)

Dans la commande ci-dessus, le premier paramètre que nous avons attribué devait être la variable attribuée à l'ensemble de données auquel nous avons appliqué la fonction. La condition booléenne est considérée comme le deuxième paramètre. De plus, l'état booléen doit être évalué pour chaque ligne. Il sert de facteur décisif pour savoir si une ligne doit faire partie de la sortie.

3 - Utilisation des fonctions moyennes sur l'ensemble de données

RStudio a des fonctions spécifiques pour élaborer des moyennes sur l'ensemble de données:

$ moyenne (cpd $ mâles totaux) - calcule la moyenne simple
$ Median (CPD $ Total Females) - Donne la médiane pour une colonne
$ Quantile (CPD $ POPULATION TOTAL) - Donne le quantile pour une colonne
$ var (cpd $ mâles total) - élabore la variance d'une colonne
$ sd (cpd $ total femelles) -Gives écart type

Pour obtenir le rapport résumé sur l'ensemble de données, vous pouvez également exécuter l'une de ces fonctions sur l'ensemble de données.

$ Résumé (CPD)

4 - Création d'un graphique pour l'ensemble de données

Si vous allez souvent travailler avec RStudio, vous trouverez son outil de visualisation très ingénieux. Vous pouvez créer un graphique à partir de tout ensemble de données importé avec le tracé et d'autres fonctions de visualisation dans RStudio.

Pour générer un diagramme de dispersion pour l'ensemble de données, vous émettez la commande suivante:

$ Plot (x = s $ Total Mâles, y = s $ Total Females, Type = 'P')

Maintenant, discutons des paramètres impliqués ici. Dans chaque paramètre, S fait référence au sous-ensemble de l'ensemble de données d'origine, et en ajoutant «P», vous indiquez que vous voulez que la sortie soit tracée.

Vous pouvez également représenter votre ensemble de données sous la forme d'un histogramme:

$ HIST (CPD $ TOTAL MAISONS)

De même, pour obtenir un graphique à barres de l'ensemble de données importé:

$ comptes <- table(cpd$Total Population)
$ barplot (comptes, main = "distribution totale de la population",
$ xLab = "Nombre de TotalPopulation")

Gestion des données dans des séries chronologiques inégalement espacées

Pour gérer les données avec des séries chronologiques inégalement espacées, vous devez intégrer le package du zoo avec RStudio. Pour obtenir le package du zoo, allez dans le coin inférieur à droite de l'écran dans RStudio et dans le composant du package. Le package du zoo convertit les données irrégulières des séries chronologiques en objets zoo. Les arguments insérés pour créer des objets zoo sont les données, qui vient en premier, suivie de la valeur à l'ordre par.

Les objets zoo fournissent une facilité d'utilisation. Tout ce que vous avez à faire est de taper «tracé», et vous serez affiché toutes les méthodes de tracé que vous pouvez utiliser avec ce package de zoo.

Si vous vous trouvez confus quant à ce qu'une certaine fonction RStudio a à offrir, entrez le nom de cette fonction et suivez-la avec «?"Pour voir l'invite dans le menu d'aide. Aussi, en appuyant sur l'espace Ctrl + après qu'un nom de fonction a produit la fenêtre d'achèvement automatique.

Emballer

Ce tutoriel a illustré comment vous pouvez configurer RStudio sur Ubuntu 20.04 et a couvert les bases de la représentation statistique et de la manipulation avec rstudio. Si vous souhaitez mieux utiliser Rstudio, vous familiariser avec R Basics de programmation devrait être une bonne première étape. RStudio est un outil puissant et a des applications dans de nombreuses industries à travers le monde: l'intelligence artificielle et l'exploration de données, pour n'en nommer que quelques-uns.

Apprendre à connaître Nitty-Gritty de R Programming est un peu une courbe d'apprentissage, mais cela en vaut la peine.