Compilation et exécution R à partir de la ligne de commande
Les deux façons d'exécuter les programmes R sont: un script R, qui est largement utilisé et le plus préféré et le second est R CMD Batch, ce n'est pas une commande couramment utilisée. Nous pouvons les appeler directement à partir de la ligne de commande ou de tout autre planificateur d'emploi.
Vous pouvez éventuellement appeler ces commandes à partir d'un shell intégré à l'IDE et de nos jours, l'ide RStudio est livré avec des outils qui améliorent ou gérent le script R et les fonctions de lot R CMD.
La fonction source () à l'intérieur r est une bonne alternative à l'utilisation de la ligne de commande. Cette fonction peut également appeler un script, mais pour utiliser cette fonction, vous devez être dans l'environnement R.
Ensembles de données intégrés de la langue r
Pour répertorier les ensembles de données intégrés avec R, utilisez la commande data (), puis trouvez ce que vous voulez et utilisez le nom de l'ensemble de données dans la fonction Data (). Comme les données (fonctionname).
Afficher les ensembles de données dans R
Le point d'interrogation (?) pourrait être utilisé pour demander de l'aide pour les ensembles de données.
Pour vérifier tout, utilisez un résumé ().
Plot () est également une fonction qui est utilisée pour tracer des graphiques.
Créons un script de test et exécutons-le. Créer P1.R Fixez et enregistrez-le le répertoire domestique avec le contenu suivant:
Exemple de code:
# Simple Hello World Code en R Print ("Hello World!") imprimer (" Linuxhint ") Imprimer (5 + 6)
Running Hello World
R cadres de données
Pour stocker des données dans les tableaux, nous utilisons une structure en R appelée Trame de données. Il est utilisé pour lister les vecteurs de longueur égale. Par exemple, la variable NM suivante est une trame de données contenant trois vecteurs x, y, z:
x = c (2, 3, 5) y = c ("aa", "bb", "cc") z = c (true, false, true) # nm est un cadre de données nm = données.cadre (n, s, b)
Il y a un concept appelé IntégréLes cadres de données en R. mtcars est un tel cadre de données intégré dans R, que nous utiliserons comme exemple, pour notre meilleure compréhension. Voir le code ci-dessous:
> mtcars mpg cyl disp hp drat wt… mazda rx4 21.0 6 160 110 3.90 2.62… bus rx4 wag 21.0 6 160 110 3.90 2.88… Datsun 710 22.8 4 108 93 3.85 2.32…
mtcars Bulitine dataframe
L'en-tête est la ligne supérieure de la table qui contient les noms de colonne. Les lignes de données sont données par chaque ligne horizontale; Chaque ligne commence par le nom de la ligne puis suivie des données réelles. Le membre de données d'une ligne est appelé cellule.
Nous entrions les coordonnées de la ligne et de la colonne dans un seul opérateur carré '[]' pour récupérer des données dans une cellule. Pour séparer les coordonnées, nous utilisons une virgule. L'ordre est essentiel. La coordonnée commence par la ligne puis la virgule puis se termine avec la colonne. Valeur cellulaire de 2nd rangée et 1St la colonne est donnée comme:
> mtcars [2, 2] [1] 6
Nous pouvons également utiliser le nom des lignes et de la colonne au lieu de coordonnées:
> mtcars ["bus rx4", "mpg"] [1] 6
La fonction NROW est utilisée pour trouver le nombre de lignes dans le cadre de données.
> nrow (mtcars) # nombre de lignes de données [1] 32
La fonction NCOL est utilisée pour trouver le nombre de colonnes dans un cadre de données.
> ncol (mtcars) # nombre de colonnes [1] 11
Boucles de programmation R
Dans certaines conditions, nous utilisons des boucles lorsque nous voulons automatiser une partie du code, ou nous voulons répéter une séquence d'instructions.
Pour boucle en r
Si nous voulons imprimer les informations de ces années plus d'une fois.
Impression (Paste ("L'année IS", 2000)) "L'année est 2000" imprimer (Paste ("L'année est", 2001)) "L'année est 2001" imprimer (Paste ("L'année est", 2002) ) "L'année est 2002" imprimé (Paste ("L'année IS", 2003)) "L'année est 2003" imprimé (Paste ("L'année IS", 2004)) "L'année est 2004" imprimé (Paste (" L'année est ", 2005))" L'année est 2005 "
Au lieu de répéter notre déclaration encore et encore si nous utilisons pour boucle ce sera beaucoup plus facile pour nous. Comme ça:
pour (année en C (2000 2001 2002 2003 2004 2005)) imprimer (coller ("L'année est", année)) "L'année est 2000" "L'année est 2001" "L'année est 2002 "" L'année est 2003 "" L'année est 2004 "" L'année est 2005 "
Tandis que la boucle en r
while (expression) instruction
Si le résultat de l'expression est vraie, le corps de la boucle est entré. Les instructions à l'intérieur de la boucle sont effectuées, et le flux revient pour évaluer à nouveau l'expression. La boucle se répétera jusqu'à l'évaluation de l'expression à False, auquel cas la boucle sort.
Exemple de boucle while:
# i est initialement initialisé à 0 i = 0 while (i<5) print (i) i=i+1 Output: 0 1 2 3 4
Dans la boucle ci-dessus, l'expression est je<5qui mesure true puisque 0 est inférieur à 5. Par conséquent, le corps de la boucle est exécuté, et je est la sortie et incrémentée. Il est important d'incrémenter je À l'intérieur de la boucle, il remplira donc la condition à un moment donné. Dans la boucle suivante, la valeur de je est 1, et la boucle continue. Il se répétera jusqu'à je égal à 5 lorsque la condition 5<5 reached loop will give FALSE and the while loop will exit.
R fonctions
Créer un fonction Nous utilisons la fonction directive (). Plus précisément, ce sont des objets r de classe fonction.
F <- function() ##some piece of instructions
Notamment, les fonctions pourraient être transmises à d'autres fonctions car les arguments et les fonctions pourraient être imbriqués, pour vous permettre de déterminer une fonction à l'intérieur d'une autre fonction.
Les fonctions éventuellement peuvent avoir des arguments nommés qui ont des valeurs par défaut. Si vous ne voulez pas de valeur par défaut, vous pouvez définir sa valeur sur null.
Quelques faits sur les arguments de la fonction R:
#Defining une fonction: f <- function (x, y = 1, z = 2, s= NULL)
Création d'un modèle de régression logistique avec ensemble de données intégré
Le glm () La fonction est utilisée dans R pour ajuster la régression logistique. La fonction glm () est similaire à la LM () mais GLM () a quelques paramètres supplémentaires. Son format ressemble à ceci:
glm (x ~ z1 + z2 + z3, famille = binomial (link = ”logit”), data = mydata)
X dépend des valeurs de Z1, Z2 et Z3. Ce qui signifie que Z1, Z2 et Z3 sont des variables indépendantes et X est la fonction dépendante implique une famille de paramètres supplémentaires et il a une valeur binomiale (link = «logit») qui signifie que la fonction de liaison est logit et la distribution de probabilité du modèle de régression est binomiale.
Supposons que nous ayons un exemple d'étudiant où il sera admis sur la base de deux résultats d'examen. L'ensemble de données contient les éléments suivants:
Dans cet exemple, nous avons deux valeurs 1 si un étudiant a été admis et 0 s'il n'a pas été admis. Nous devons générer un modèle pour prédire que l'étudiant a obtenu l'admission ou non,. Pour un problème donné, admis est considéré comme une variable dépendante, l'examen et l'examen et l'examen sont considérés comme des variables indépendantes. Pour ce modèle, notre code R est donné
> Model_1<-glm(admitted ~ result_1 +result_2, family = binomial("logit"), data=data)
Supposons que nous ayons deux résultats de l'étudiant. Résultat-1 65% et résultat-2 90%, nous prédireons maintenant que l'étudiant est admis ou non pour estimer la probabilité que l'étudiant soit admis que notre code R est comme ci-dessous:
> in_framepredict (Model_1, in_frame, type = "réponse") Sortie: 0.9894302
La sortie ci-dessus nous montre la probabilité entre 0 et 1. Si alors c'est inférieur à 0.5 Cela signifie que l'élève n'a pas été admis. Dans cette condition, ce sera faux. Si c'est supérieur à 0.5, la condition sera considérée comme vraie, ce qui signifie que l'étudiant a été admis. Nous devons utiliser la fonction ronde () pour prédire la probabilité entre 0 et 1.
Le code r pour cela est comme indiqué ci-dessous:
> Round (prédire (modèle_1, in_frame, type = "réponse")) [/ code] sortie: 1
Un étudiant sera admis car la sortie est 1. De plus, nous pouvons également prédire d'autres observations de la même manière.
Utilisation du modèle de régression logistique (notation) avec de nouvelles données
En cas de besoin, nous pouvons enregistrer le modèle dans un fichier. Le code R pour notre modèle de train ressemblera à ceci:
le modèle <- glm(my_formula, family=binomial(link='logit'),data=model_set)
Ce modèle peut être enregistré avec:
sauver (file = "filename", the_file)
Vous pouvez utiliser le fichier après l'enregistrement de l'IT, en utilisant ce code de paix de R:
charger (file = "filename")
Pour appliquer le modèle pour les nouvelles données, vous pouvez utiliser cette ligne de code:
Model_set $ Pred <- predict(the_model, newdata=model_set, type="response")
NOTE: Le modèle_set ne peut être attribué à aucune variable. Pour charger un modèle, nous utiliserons la fonction de fonction (). De nouvelles observations ne changeront rien dans le modèle. Le modèle restera le même. Nous utilisons l'ancien modèle pour faire des prédictions sur les nouvelles données pour ne rien changer dans le modèle.
J'espère que vous avez vu comment la programmation R fonctionne de manière de base et comment vous pouvez rapidement entrer dans l'action en faisant l'apprentissage automatique et le codage des statistiques avec R.