Supprimer les doublons en r

Supprimer les doublons en r
«L'une des tâches les plus difficiles pour un scientifique des données est le nettoyage des données. Nous supprimons fréquemment des doublons en fonction de conditions particulières, telles que les valeurs de colonne, pour examiner avec précision l'ensemble de données. Dans cet article, nous examinerons comment éliminer la duplication des données en fonction des valeurs de ligne ou de colonne et les différentes méthodes pour le faire. Des valeurs en double peuvent exister dans un ensemble de données, et les lignes en double doivent être reconnues et éliminées pour la préserver sans redondance et précise. Nous vérifierons si notre ensemble de données contenait des données en double et si oui, nous le supprimerons."

Comment supprimer les doublons dans le R dans Ubuntu 20.04?

Vous découvrirez comment supprimer la duplication d'une trame de données dans ce tutoriel R. Vous comprendrez comment vous débarrasser d'abord des lignes en double, puis des colonnes. Nous examinerons comment utiliser la base R et DPLYR pour éliminer les entrées en double de la trame de données.

Exemple n ° 1: reconnaître les données en double dans R dans Ubuntu 20.04

Nous utiliserons la fonction dupliquée () pour identifier les lignes en double, qui renvoie une valeur numérique des lignes totales en double.

Ici, nous avons montré les données enregistrées, qui contient les noms des colonnes comme l'anglais, la science et les mathématiques. De plus, nous avons diverses lignes en double à l'intérieur de ces données. Ensuite, nous avons une fonction dupliquée à laquelle nous avons passé la variable de résultat comme argument. Une fois que nous avons exécuté la commande de cette fonction dupliquée, les valeurs booléennes sont générées. Il montre toutes les fausses valeurs car il n'y a pas de redondance dans le cadre de données.

Exemple n ° 2: Suppression des données en double utilisant la méthode unique en R dans Ubuntu 20.04

Pour obtenir des éléments uniques des données spécifiées, utilisez la fonction unique () dans R.

Ici, nous avons un cadre de données qui contient le nom de champ, l'identifiant et le salaire de l'employé et est stocké à l'intérieur de la variable EMP_DATA. L'EMP_DATA est ensuite exécuté, qui génère la trame de données dans le formulaire tabulaire. Maintenant, nous avons utilisé une fonction unique pour extraire l'enregistrement unique des données. À l'intérieur de la fonction unique, nous avons passé l'EMP_DATA. La sortie générée à partir de la fonction unique a supprimé la ligne en double de la trame de données donnée.

Exemple # 3: Suppression des données en double utilisant la méthode distincte dans R dans Ubuntu 20.04

La fonction distincte est l'une des bibliothèques de manipulation de données les plus souvent utilisées dans le langage R, et elle est fournie par le package DPLYR. La fonction distincte choisit les lignes dans un cadre de données qui sont tous uniques. Le cadre de données est l'argument initial, suivi des variables à considérer pendant la sélection. Pour filtrer les lignes uniques, de nombreuses colonnes variables peuvent être fournies, mais nous afficherons des instances de variables uniques dans l'échantillon suivant. Le troisième argument n'est pas obligatoire et a la valeur fausse par défaut; Cependant, si l'utilisateur spécifie expressément vrai, la fonction conservera toutes les variables dans le cadre de données après filtration. Il convient de noter que DPLYR utilise une fonction d'opérateur appelé Pipes de la forme%>%, qui est compris comme passant la variable gauche comme le premier paramètre de la fonction de droite. Plus précisément, la notation x%? % f (y) devient f (x, y).

Ici, nous avons un cadre de données Products_Results qui est montré dans le formulaire tabulaire. Vous pouvez voir les lignes redondantes dans le cadre de données Products_Result. Nous pouvons supprimer ces doublons en utilisant la fonction distincte. Dans notre prochaine commande, nous avons utilisé les produits_result à l'intérieur de la fonction distincte comme un argument. Maintenant, le cadre de données montre l'enregistrement du cadre de données sans lignes en double.

Dans le cadre de données précédent, deux lignes sont apparues deux fois dans le cadre de données, mais après avoir utilisé la fonction distincte, la ligne dupliquée a été supprimée.

Exemple n ° 4: Suppression des données en double à l'aide de la méthode du filtre Group_By dans R dans Ubuntu 20.04

Une autre option pour supprimer les lignes en double basées sur les colonnes consiste à regrouper l'ensemble de données avec la variable des colonnes, puis à utiliser le filtre et les méthodes dupliquées pour filtrer les éléments. Sa première étape est terminée à l'aide du groupe du package DPLYR par fonction. Le résultat de l'opération précédente est ensuite transféré à la fonction de filtre, qui supprime les lignes en double.

Ici, notre étape initiale consiste à importer la bibliothèque DPLYR qui prend en charge la fonction de filtre Group_By dans le script R. Ensuite, nous avons créé un cadre de données qui a le dossier des équipes apparaissant les jours aléatoires. Nous avons également spécifié le sexe du cadre de données. Lorsque le cadre de données est imprimé à l'écran, nous pouvons voir la redondance dans chaque colonne. Nous pouvons éliminer cela en utilisant la fonction de filtre Group_By. Dans la figure suivante, la fonction Group_By est invoquée, et il prend la colonne «jour» comme argument dans la variable T1. Ensuite, le filtre est appliqué à la fonction dupliquée où la colonne «jour» est passé. Lorsque nous exécutons le T1, il ne supprime que les doublons de la colonne «jour."

Identique à ci-dessus, nous avons appliqué la fonction de filtre group_by à la colonne «Sexe."

Ici, nous avons supprimé les doublons de la colonne «équipe» de la fonction de filtre Group_By.

Exemple # 5: Suppression des données en double utilisant la méthode Group_By Slice dans R dans Ubuntu 20.04

Alternativement, le groupe par fonction peut être utilisé en conjonction avec une tranche pour supprimer des lignes en double basée sur les valeurs de colonne. Slice est un package DPLYR qui choisit les lignes par index. Lorsque le cadre de données donné est regroupé, la tranche sélectionne les lignes de chaque groupe en fonction de l'index fourni, comme le montre l'exemple de code suivant.

Ci-dessus, nous avons créé et affiché l'enregistrement du trame de données. Ici, nous n'avons que deux colonnes qui ont des valeurs redondantes. Ceci, nous pouvons éliminer la fonction Group_By en fournissant le Col1 à l'intérieur, puis appliquer la fonction de tranche dessus.

Maintenant, les lignes en double ont été supprimées du COL1, nous avons donc également supprimé la redondance COL2 en appliquant la fonction Group_By Slice. Par conséquent, la ligne de doublons a été éliminée du cadre de données ci-dessous.

Conclusion

À ce stade de la leçon, vous avez appris à utiliser le langage R pour identifier et éliminer les lignes en double qui apparaissent plusieurs fois. Utilisez des fonctions fondamentales telles que unique () et dupliqué () pour éliminer les lignes ou les colonnes redondantes d'un vecteur ou d'un cadre de données. Utilisez la méthode distincte () dans le package DPLYR si vous travaillez avec un grand ensemble de données et souhaitez supprimer les entrées en double. De plus, nous pouvons utiliser la méthode Group_By, Filtre et Slice pour supprimer la ligne et les colonnes dupliquées en R.