Comment laisser tomber les lignes en double dans Pandas Python

Comment laisser tomber les lignes en double dans Pandas Python
Python est l'un des langages de programmation les plus populaires pour l'analyse des données et prend également en charge divers packages centrés sur les données Python. Les packages Pandas sont parmi les packages Python les plus populaires et peuvent être importés pour l'analyse des données. Dans presque tous les ensembles de données, des lignes en double existent souvent, ce qui peut causer des problèmes pendant l'analyse des données ou l'opération arithmétique. La meilleure approche pour l'analyse des données est d'identifier toutes les lignes dupliquées et de les supprimer de votre ensemble de données. À l'aide de la fonction Pandas Drop_Duplicate (), vous pouvez facilement supprimer ou supprimer des enregistrements en double d'une trame de données.
Cet article vous montre comment trouver des doublons dans les données et supprimer les doublons à l'aide des fonctions Pandas Python.

Dans cet article, nous avons pris un ensemble de données de la population de différents États aux États-Unis, qui est disponible dans un .format de fichier CSV. Nous lirons le .Fichier CSV pour afficher le contenu d'origine de ce fichier, comme suit:

Importer des pandas en tant que PD
df_state = pd.read_csv ("c: / users / dell / Desktop / Population_ds.CSV ")
print (df_state)

Dans la capture d'écran suivante, vous pouvez voir le contenu en double de ce fichier:

Identifier les doublons dans Pandas Python

Il est nécessaire de déterminer si les données que vous utilisez ont des lignes dupliquées. Pour vérifier la duplication de données, vous pouvez utiliser l'une des méthodes couvertes dans les sections suivantes.

Méthode 1:

Lisez le fichier CSV et passez-le dans le cadre de données. Ensuite, identifiez les lignes en double à l'aide du dupliqué () fonction. Enfin, utilisez l'instruction PRINT pour afficher les lignes en double.

Importer des pandas en tant que PD
df_state = pd.read_csv ("c: / users / dell / Desktop / Population_ds.CSV ")
Dup_rows = df_state [df_state.dupliqué ()]
print ("\ n \ nduplicate Rows: \ n ".format (dup_rows))

Méthode 2:

En utilisant cette méthode, le IS_DUPLICATED une colonne sera ajoutée à la fin du tableau et marquée comme «vrai» dans le cas des lignes dupliquées.

Importer des pandas en tant que PD
df_state = pd.read_csv ("c: / users / dell / Desktop / Population_ds.CSV ")
df_state ["is_duplicate"] = df_state.dupliqué ()
print ("\ n ".format (df_state))

Laisser tomber des doublons dans Pandas Python

Les lignes dupliquées peuvent être supprimées de votre trame de données à l'aide de la syntaxe suivante:
drop_duplicate (subset = ", keep =", inplace = false)
Les trois paramètres ci-dessus sont facultatifs et sont expliqués plus en détail ci-dessous:
donjon: Ce paramètre a trois valeurs différentes: d'abord, dernier et faux. La première valeur maintient la première occurrence et supprime les doublons ultérieurs, la dernière valeur ne maintient que la dernière occurrence et supprime toutes les doublons précédents, et la fausse valeur supprime toutes les lignes dupliquées.
sous-ensemble: étiquette utilisée pour identifier les lignes dupliquées
en place: contient deux conditions: vrai et faux. Ce paramètre supprimera les lignes dupliquées si elle est définie sur true.

Retirez les doublons en conservant uniquement la première occurrence

Lorsque vous utilisez «Keep = First», seule la première occurrence de ligne sera conservée, et tous les autres doublons seront supprimés.

Exemple

Dans cet exemple, seule la première ligne sera conservée et les doublons restants seront supprimés:

Importer des pandas en tant que PD
df_state = pd.read_csv ("c: / users / dell / Desktop / Population_ds.CSV ")
Dup_rows = df_state [df_state.dupliqué ()]
print ("\ n \ nduplicate Rows: \ n ".format (dup_rows))
Df_rm_dup = df_state.drop_duplicate (keep = 'first')
print ('\ n \ nresult dataframe après la suppression en double: \ n', df_rm_dup.tête (n = 5))

Dans la capture d'écran suivante, la première occurrence conservée est mise en évidence en rouge et les duplications restantes sont supprimées:

Retirez les doublons en conservant uniquement la dernière occurrence

Lorsque vous utilisez «Keep = dernier», toutes les lignes en double sauf la dernière occurrence seront supprimées.

Exemple

Dans l'exemple suivant, toutes les lignes dupliquées sont supprimées, sauf uniquement la dernière occurrence.

Importer des pandas en tant que PD
df_state = pd.read_csv ("c: / users / dell / Desktop / Population_ds.CSV ")
Dup_rows = df_state [df_state.dupliqué ()]
print ("\ n \ nduplicate Rows: \ n ".format (dup_rows))
Df_rm_dup = df_state.drop_duplicate (keep = 'last')
print ('\ n \ nresult dataframe après la suppression en double: \ n', df_rm_dup.tête (n = 5))

Dans l'image suivante, les doublons sont supprimés et seule la dernière occurrence de la ligne est conservée:

Supprimer toutes les lignes en double

Pour supprimer toutes les lignes en double d'une table, définissez «Keep = False», comme suit:

Importer des pandas en tant que PD
df_state = pd.read_csv ("c: / users / dell / Desktop / Population_ds.CSV ")
Dup_rows = df_state [df_state.dupliqué ()]
print ("\ n \ nduplicate Rows: \ n ".format (dup_rows))
Df_rm_dup = df_state.drop_duplicate (keep = false)
print ('\ n \ nresult dataframe après la suppression en double: \ n', df_rm_dup.tête (n = 5))

Comme vous pouvez le voir dans l'image suivante, tous les doublons sont supprimés de la trame de données:

Supprimer les doublons connexes d'une colonne spécifiée

Par défaut, la fonction vérifie toutes les lignes dupliquées de toutes les colonnes dans la trame de données donnée. Mais, vous pouvez également spécifier le nom de la colonne en utilisant le paramètre de sous-ensemble.

Exemple

Dans l'exemple suivant, toutes les doublons connexes sont supprimés de la colonne «États».

Importer des pandas en tant que PD
df_state = pd.read_csv ("c: / users / dell / Desktop / Population_ds.CSV ")
Dup_rows = df_state [df_state.dupliqué ()]
print ("\ n \ nduplicate Rows: \ n ".format (dup_rows))
Df_rm_dup = df_state.drop_duplicate (sous-ensemble = 'état')
print ('\ n \ nresult dataframe après la suppression en double: \ n', df_rm_dup.tête (n = 6))

Conclusion

Cet article vous a montré comment supprimer les lignes dupliquées d'un cadre de données à l'aide du drop_duplicate () Fonction dans Pandas Python. Vous pouvez également effacer vos données de duplication ou de redondance à l'aide de cette fonction. L'article vous a également montré comment identifier les doublons dans votre cadre de données.