Créer un dataframe dans r

Créer un dataframe dans r
Dans R, les dataframes sont l'objet le plus fréquemment utilisé pour stocker des données. C'est une collection de vecteurs de longueurs identiques. Un dataframe est une table ou une structure qui ressemble à un tableau bidimensionnel, où chaque colonne représente une valeur unique d'une variable tandis que les valeurs de chaque colonne sont représentées dans une seule ligne.

Un dataframe doit répondre à certaines caractéristiques que nous avons mentionnées dans ce paragraphe. Les colonnes dans le dataframe doivent être nommées et non laissées vides. Chaque ligne dans le dataframe doit être nommée de manière unique.

Création de données de données dans R

La programmation R fournit diverses méthodes pour créer un dataframe. Nous pouvons construire une dataframe en utilisant les vecteurs à partir d'une autre dataframe et en important un fichier. Dans cet article, nous discuterons de ces techniques qui vous aideront à apprendre le concept de création d'un dataframe dans R.

Utilisation des vecteurs pour faire une dataframe dans R

La programmation R vous permet de créer une dataframe à l'aide de vecteurs de taille égale. À cette fin, R vous fournit une fonction intégrée «Données.cadre()".Cette fonction peut attraper autant de vecteurs que nous le souhaitons.

Ce qui suit est la syntaxe pour appeler cette fonction:

df <- data.frame(v1, v2, v3, v4)

Dans n'importe quelle dataframe, Une colonne est représentée par chaque vecteur, et le nombre de lignes sera déterminé par la longueur de tout vecteur.

Il existe 2 façons de générer une dataframe à l'aide de vecteurs, une en créant les vecteurs requis, puis en les transmettant aux «données.frame () ”Fonction. Et le substitut supplémentaire consiste à fournir directement les vecteurs aux «données.frame () ”Fonction et affectez-leur des valeurs à l'intérieur des accolades de fonction.

Nous vous aiderons à comprendre les deux méthodes en démontrant des exemples pratiques dans RStudio dans Ubuntu 20.04.

Nous ferons un exemple pour créer une dataframe à partir de vecteurs. Nous allons d'abord créer des vecteurs, puis les passer tous comme paramètre des «données.cadre()".

Dans le programme que nous avons démontré dans l'image ci-dessus, nous avons utilisé quatre vecteurs. Tous les vecteurs sont créés à l'aide de la fonction «C ()». Le premier vecteur que nous avons généré est le «nom», qui stockera les noms de 3 personnes ayant des valeurs de type de caractère. Le deuxième vecteur est «langue» et stocke les noms de 3 langages de programmation. Il stocke également les types de données de caractère. Notre troisième vecteur est «l'âge», qui stocke les types de données numériques. Le dernier vecteur, «Gender», stockent également 3 valeurs de type de données de caractère. Les 4 vecteurs sont transmis aux «données. frame () ”fonctionne comme son paramètre. Le Dataframe «DF» a stocké la sortie des «données.frame () ”Fonction dedans. Dans la toute dernière étape du code, nous avons utilisé l'instruction «print ()» pour afficher la sortie.

Le dataframe résultant a 4 colonnes, chacune ayant la même taille de vecteurs.

L'autre méthode alternative pour générer une dataframe en R à l'aide des vecteurs est que vous pouvez fournir aux vecteurs des valeurs à l'intérieur des «données.frame () ”Fonction.

Cet extrait de code a simplement créé des vecteurs et leur a attribué des valeurs à l'intérieur du corps des «données.frame () ”Fonction et stocké cette fonction dans DataFrame« DF."" Print () "a affiché la sortie.

Le tableau résultant donne la même sortie, qui peut être vue dans l'image ci-dessous.

Il vaut la peine de répéter que pour générer un dataframe à partir d'une liste de vecteurs, chaque vecteur de la liste doit avoir le même nombre d'éléments; Sinon, le script rapportera une erreur.

Utilisation d'autres dataframes pour créer un dataframe

La création d'un dataframe en utilisant deux ou plusieurs données de données est une autre technique appliquée dans la programmation R. Nous pouvons faire pour le regroupement des colonnes d'une dataframe à une autre ainsi que pour rejoindre les lignes.

Nous exécuterons deux programmes ici, l'un pour le regroupement horizontal et l'autre pour le groupe vertical.

Pour les colonnes, la fonction que nous utiliserons est «cbind ()."Créons d'abord 2 dataframes, puis les combinons en utilisant la fonction" cbind () ".

Dans le premier morceau de code, 2 colonnes seront construites et les valeurs sont stockées dans DataFrame «DF1».

Le tableau résultant donne la même sortie, qui peut être vue dans l'image ci-dessous.

Un autre dataframe, «df2», est généré avec 2 colonnes, «âge» et «sexe."

Le tableau résultant donne la même sortie, qui peut être vue dans l'image ci-dessous.

Un DataFrame «DF3» est construit et utilise la fonction «CBind ()» pour combiner la «DF1» et «DF2».

La sortie ultime montre un tableau généré par la fusion des 2 DataFrames.

De même, pour créer les lignes DataFrame, nous pouvons utiliser la fonction «rbind ()». À l'intérieur de la fonction «rbind ()», nous passerons les 2 données de données comme paramètres. Cette fonction concaténera les 2 frères de données verticales plus petites dans un tableau entier. Gardez à l'esprit que le nombre de lignes doit être le même pour toutes les dataframes que vous allez créer.

Lire un fichier dans un dataframe

En plus de générer une dataframe, il y a quelques autres choses que vous pouvez faire. Nous pouvons importer un ensemble de données tabulaires et les enregistrer sous forme de dataframe. Il s'agit de la méthode la plus fréquente pour construire une dataframe dans la programmation R.

Nous avons créé un fichier CSV, des valeurs stockées au format tabulaire et l'avons nommée «Table.CSV."Nous avons enregistré ce fichier dans notre dossier" Documents ". Dans rstudio, nous le lirons en utilisant le «Lire.CSV () ”fonctionne comme un nouveau dataframe nommé« Table."

Pour lire un fichier CSV dans RStudio, la première chose que vous devez faire est de configurer votre répertoire de travail actuel. En utilisant la fonction «getwd ()», vous pouvez localiser votre répertoire de travail actuel. Dans la toute prochaine étape, vous devez définir votre répertoire sur l'endroit où vous avez enregistré le «.Fichier CSV ". Si vous ne considérez pas ces étapes, vous obtiendrez une erreur tout en luttant pour lire le fichier.

Une fois que vous avez correctement défini le chemin d'accès du répertoire de travail actuel sur le répertoire où vous avez stocké votre fichier CSV, vous utiliserez maintenant la «lecture.Fonction CSV () ”. Écrivez le «.Nom de fichier CSV »avec un devis (" ") à l'intérieur du" Lire.csv () ”et utilisez un dataframe avec le nom que vous souhaitez stocker ses valeurs.

Les données que nous avons stockées dans notre fichier CSV sont affichées ici.

Conclusion

Dans le sujet d'aujourd'hui, nous avons exploré la création de DataFrames. Les dataframes sont des structures nécessaires de la programmation R. Nous avons discuté de différentes façons de construire vos données de données dans RStudio dans Ubuntu 20.04 Environnement en élaborant chacun avec un exemple pratique. Mettre une pratique pratique à ces exemples de codes vous présentera non seulement la nécessité d'utiliser des dataframes, mais aussi les moyens alternatifs pour les construire.