Dans cet article, nous avons pris un ensemble de données de la population de différents États aux États-Unis, qui est disponible dans un .format de fichier CSV. Nous lirons le .Fichier CSV pour afficher le contenu d'origine de ce fichier, comme suit:
Importer des pandas en tant que PDDans la capture d'écran suivante, vous pouvez voir le contenu en double de ce fichier:
Identifier les doublons dans Pandas Python
Il est nécessaire de déterminer si les données que vous utilisez ont des lignes dupliquées. Pour vérifier la duplication de données, vous pouvez utiliser l'une des méthodes couvertes dans les sections suivantes.
Méthode 1:
Lisez le fichier CSV et passez-le dans le cadre de données. Ensuite, identifiez les lignes en double à l'aide du dupliqué () fonction. Enfin, utilisez l'instruction PRINT pour afficher les lignes en double.
Importer des pandas en tant que PDMéthode 2:
En utilisant cette méthode, le IS_DUPLICATED une colonne sera ajoutée à la fin du tableau et marquée comme «vrai» dans le cas des lignes dupliquées.
Importer des pandas en tant que PDLaisser tomber des doublons dans Pandas Python
Les lignes dupliquées peuvent être supprimées de votre trame de données à l'aide de la syntaxe suivante:
drop_duplicate (subset = ", keep =", inplace = false)
Les trois paramètres ci-dessus sont facultatifs et sont expliqués plus en détail ci-dessous:
donjon: Ce paramètre a trois valeurs différentes: d'abord, dernier et faux. La première valeur maintient la première occurrence et supprime les doublons ultérieurs, la dernière valeur ne maintient que la dernière occurrence et supprime toutes les doublons précédents, et la fausse valeur supprime toutes les lignes dupliquées.
sous-ensemble: étiquette utilisée pour identifier les lignes dupliquées
en place: contient deux conditions: vrai et faux. Ce paramètre supprimera les lignes dupliquées si elle est définie sur true.
Retirez les doublons en conservant uniquement la première occurrence
Lorsque vous utilisez «Keep = First», seule la première occurrence de ligne sera conservée, et tous les autres doublons seront supprimés.
Exemple
Dans cet exemple, seule la première ligne sera conservée et les doublons restants seront supprimés:
Importer des pandas en tant que PDDans la capture d'écran suivante, la première occurrence conservée est mise en évidence en rouge et les duplications restantes sont supprimées:
Retirez les doublons en conservant uniquement la dernière occurrence
Lorsque vous utilisez «Keep = dernier», toutes les lignes en double sauf la dernière occurrence seront supprimées.
Exemple
Dans l'exemple suivant, toutes les lignes dupliquées sont supprimées, sauf uniquement la dernière occurrence.
Importer des pandas en tant que PDDans l'image suivante, les doublons sont supprimés et seule la dernière occurrence de la ligne est conservée:
Supprimer toutes les lignes en double
Pour supprimer toutes les lignes en double d'une table, définissez «Keep = False», comme suit:
Importer des pandas en tant que PDComme vous pouvez le voir dans l'image suivante, tous les doublons sont supprimés de la trame de données:
Supprimer les doublons connexes d'une colonne spécifiée
Par défaut, la fonction vérifie toutes les lignes dupliquées de toutes les colonnes dans la trame de données donnée. Mais, vous pouvez également spécifier le nom de la colonne en utilisant le paramètre de sous-ensemble.
Exemple
Dans l'exemple suivant, toutes les doublons connexes sont supprimés de la colonne «États».
Importer des pandas en tant que PDConclusion
Cet article vous a montré comment supprimer les lignes dupliquées d'un cadre de données à l'aide du drop_duplicate () Fonction dans Pandas Python. Vous pouvez également effacer vos données de duplication ou de redondance à l'aide de cette fonction. L'article vous a également montré comment identifier les doublons dans votre cadre de données.