Pandas a une méthode appelée «Index.drop_duplicate () ”qui nous permet de supprimer les index en double de la liste des étiquettes d'index. L'index.drop_duplicate () ”La fonction dans Pandas renvoie un index avec les entrées en double jetées. La fonction donne à l'utilisateur la liberté de sélectionner la valeur en double doit être conservée. Nous avons deux options: supprimez les premières et dernières entrées en double de la liste ou supprimez toutes les données en double de la liste.
Si vous souhaitez utiliser cette fonction, la syntaxe suivante doit être suivie:
Syntaxe:
pandas.Indice.drop_duplicate (keep = 'first')
Paramètre:
Le "Donjon»Le paramètre est utilisé pour réguler comment gérer les valeurs en double. «Garder» est nécessaire. Par défaut, la valeur est «d'abord».
- Lorsque la valeur est «d'abord», Le programme traite le premier élément comme distinct et les autres valeurs identiques comme doublons. Ceci, à l'exception de la première instance, élimine les doublons.
- Si la valeur est définie sur «dernier», Il traite la dernière entrée comme unique et les autres valeurs identiques comme des doublons. Il élimine ensuite tous les doublons, sauf la dernière occurrence de cette valeur.
- Si le paramètre «Keep» a le «FAUX«Valeur, toutes les valeurs identiques sont traitées comme des doublons. Il laisse tomber toutes les valeurs en double de la liste.
Exemple 1: sans paramètres
Dans cet exemple, nous avons un index nommé «Index1» qui contient 10 entiers. Supprimons les doublons sans passer de paramètre à la fonction drop_duplicate ().
importer des pandas
# Créer un indice de pandas qui maintient 10 valeurs
index1 = pandas.Index ([45,67,45,89,45,89,12,34,67,89])
print ("Index réel:", index1)
Imprimer ("Index unique:", index1.drop_duplicate ())
Sortir:
Explication:
Les indices uniques sont retournés en supprimant les doublons.
Exemple 2: avec Keep As Faux
Ayons un index qui contient 5 chaînes avec des doublons. Maintenant, définissez le paramètre «Keep» sur false.
importer des pandas
# Créer un indice de pandas qui contiennent 5 chaînes
index1 = pandas.Index (['i1', 'i1', 'i4', 'i5', 'i4'])
print ("Index réel:", index1)
Imprimer ("Index unique:", index1.drop_duplicate (keep = false))
Sortir:
Explication:
Il n'y a qu'un seul index unique - «i5». Il est retourné en supprimant tous les doublons.
Exemple 3: avec Keep As First
Ayons le «Index1» avec 10 valeurs et «index2» avec 5 chaînes. Réglez «Keep» à «d'abord» pour supprimer les doublons sans retirer la première occurrence.
importer des pandas
# Créer un indice de pandas qui maintient 10 valeurs
index1 = pandas.Index ([45,67,45,89,45,89,12,34,67,89])
Print ("Index réel 1:", index1)
# Drop doublons sans retirer la première occurrence
Print ("Index unique 1:", index1.drop_duplicate (keep = 'first'))
# Créer un indice de pandas qui contiennent 5 chaînes
index2 = pandas.Index (['i1', 'i1', 'i4', 'i5', 'i4'])
print ("Index réel 2:", index2)
# Drop doublons sans retirer la première occurrence
print ("Unique Index 2:", index2.drop_duplicate (keep = 'first'))
Sortir:
Explication:
- Dans «index1», [45, 67, 89, 12, 34] sont la première occurrence de valeurs uniques.
- Dans «index2», [«i1», «i4», «i5»] sont la première occurrence de valeurs uniques.
Exemple 4: avec Keep As Last
Ayons le «Index1» avec 10 valeurs et «index2» avec 5 chaînes. Réglez «Keep» à «d'abord» pour supprimer les doublons sans retirer la première occurrence.
importer des pandas
# Créer un indice de pandas qui maintient 10 valeurs
index1 = pandas.Index ([45,67,45,89,45,89,12,34,67,89])
Print ("Index réel 1:", index1)
# Drop doublons sans retirer le dernier événement
Print ("Index unique 1:", index1.drop_duplicate (keep = 'last'))
# Créer un indice de pandas qui contiennent 5 chaînes
index2 = pandas.Index (['i1', 'i1', 'i4', 'i5', 'i4'])
print ("Index réel 2:", index2)
# Drop doublons sans retirer le dernier événement
print ("Unique Index 2:", index2.drop_duplicate (keep = 'last'))
Sortir:
Explication:
- Dans «index1», [45, 12, 34, 67, 89] sont la dernière occurrence de valeurs uniques.
- Dans «index2», [«i1», «i5», «i4»] sont la dernière occurrence de valeurs uniques.
Conclusion
Ce tutoriel est basé sur le concept de supprimer les index en double à l'aide du module Pandas. Nous avons utilisé l'indice Pandas «.drop_duplicate () ”Méthode. Nous avons fourni la syntaxe pour l'utilisation de cette méthode et avons également décrit ses paramètres. Cette méthode nous donne trois choix pour gérer les valeurs en double. Chaque étape de cet article est expliquée très clairement et simplement.