Colonne Pandas Valeurs uniques

Colonne Pandas Valeurs uniques
La bibliothèque de science des données Python la plus populaire s'appelle Pandas. Il propose des structures de données d'analyse de données haute performance et conviviales et des outils pour les programmeurs Python. Une fois que vous comprenez les opérations fondamentales et comment elles peuvent être utilisées, Pandas est un outil utile pour modifier les données. Examinons une de ces opérations dans ce tutoriel, ainsi que quelques exemples et sorties, pour obtenir des valeurs distinctes dans une colonne d'un Pandas DataFrame.

Comment extraire des valeurs uniques de la colonne Pandas?

Plusieurs façons peuvent être utilisées pour trouver des valeurs uniques en pandas. La façon la plus courante d'extraire des valeurs uniques d'une colonne consiste à utiliser la fonction unique () et la fonction drop_duplicate (). Avant d'utiliser ces fonctions, voyons d'abord leur syntaxe.

Syntaxe de la fonction unique (): série.unique( )

Retour: ndarray ou extensionArray

Syntaxe de la fonction Drop_duplicate ()

Trame de données.drop_duplicate (sous-ensemble = aucun, keep = 'first', inplace = false)


Paramètres:

sous-ensemble: Une liste des étiquettes de colonne ou une colonne est requise par le sous-ensemble. Aucun n'est la valeur par défaut pour cela. Après les colonnes qui passent, il ne prendra que des doublons.

donjon: Pour contrôler comment les valeurs en double sont considérées. Nous pouvons utiliser trois valeurs distinctes; c'est «d'abord» par défaut.

    1. Si «premier», la première valeur sera considérée comme unique, et le reste de la même chose ou des valeurs répétitifs sera considéré comme un double.
    2. Si «dernier», la dernière valeur sera considérée comme unique, et le reste de la même chose ou des valeurs répétitifs sera considéré comme un double.
    3. Si faux, toutes les mêmes valeurs seront considérées comme un double.

en place: Valeur booléenne. Si c'est vrai, supprime les lignes en double.

Retour: Selon les arguments, le type de retour sera une dataframe avec des lignes en double éliminées.

Comme nous l'avons vu la syntaxe, passons vers les exemples pour apprendre à extraire des valeurs uniques de la colonne Pandas.

Exemple # 01: Obtenez des valeurs uniques des colonnes Pandas en utilisant la méthode unique ()

Lorsque vous travaillez avec une seule colonne de DataFrame, les «Pandas.Trame de données.La méthode unique () »est utilisée. Il renvoie toutes les composantes uniques d'une colonne. La méthode génère une dataframe qui inclut les éléments de colonne distincts et leurs étiquettes d'index qui accompagnent la sortie. Créons d'abord un dataframe, afin que nous puissions utiliser la fonction unique () pour extraire des valeurs uniques de ses colonnes.


Après avoir importé le module Pandas, nous avons créé notre DataFrame à l'aide d'un dictionnaire Pandas. Nous avons défini les clés de notre dictionnaire comme «nom» et «cours» et attribué ce dictionnaire à la variable «dic». La variable «DIC» est ensuite transmise dans le paramètre du PD.Méthode DataFrame () comme argument pour créer le «DF» DataFrame. Nous pouvons afficher notre fonction de données en utilisant la fonction print ().


Supposons que nos données de données se composent de noms d'étudiants et des cours dans lesquels ils sont inscrits. Dans une telle situation, il est assez difficile de compter chaque rangée de DataFrame pour identifier la catégorie de cours spécifique pour déterminer le nombre global de cours étudiés. Dans la données précédente, la colonne «cours» contenant le nom des cours («anglais», «mathématiques», «chimie», «mathématiques», «statistiques», «mathématiques», «anglais», «datascience»). Plus d'un étudiant étudie certains cours. Donc, pour obtenir les cours uniques de la colonne «Cours», nous utiliserons la fonction unique ().


Dans la sortie, nous obtenons un éventail d'éléments contenant les cours uniques dans notre DataFrame. Supposons que vous souhaitiez compter le nombre total d'éléments distincts plutôt que de rechercher les noms de valeurs uniques dans les colonnes de DataFrame. À cette fin, nous pouvons utiliser la fonction NUnique (). Le nombre total de valeurs distinctes pour chaque colonne est renvoyée par la méthode NUnique ().


La fonction NUnique () a renvoyé «5», ce qui signifie qu'il y a un total de 5 valeurs uniques dans la colonne «Cours» du «DF» DataFrame.

Exemple # 02: Utilisation de la méthode unique (), obtenez des valeurs uniques des colonnes numériques

Pour créer un DataFrame, nous importerons d'abord le module Pandas. Ensuite, nous créerons notre DataFrame à l'aide du PD.Fonction DataFrame ().

Comme vu ci-dessus, nous avons créé le DataFrame en passant un dictionnaire à l'intérieur de la fonction DataFrame (). Pour visualiser la nouvelle dataframe, nous utiliserons la fonction print ().


Dans ce DataFrame, nous avons deux étiquettes, «l'âge» et le «salaire», ayant des données numériques. Dans la colonne «Age», nous avons l'âge des individus comme («20», «24», «20», «22», «21», «28», «31», «25»), tandis que le La colonne «salaire» est de stocker les salaires des individus («1000», «1000», «1300», «1100», «1400», «1000», «1100», «1400»). Maintenant, nous utiliserons la fonction unique () pour obtenir les valeurs distinctes des colonnes du dataframe.


Comme le montre le script précédent, nous avons utilisé la fonction () unique pour obtenir des valeurs distinctes de la colonne «salaire». La fonction a renvoyé la sortie sous la forme d'un tableau ['1000', '1300', '1100', '1400'] contenant toutes les valeurs uniques de la colonne "Salaire" dans le dataframe. Nous pouvons également utiliser la fonction tri () pour trier les données de résultat dans l'ordre croissant.


Pour trier le tableau de sortie (avec des valeurs uniques de la colonne de salaire), nous avons attribué le tableau à une variable «u». La fonction tri () est appliquée au tableau pour trier les valeurs du tableau de sortie dans l'ordre croissant.

Exemple # 03: Obtenez des valeurs uniques de plusieurs colonnes en utilisant la méthode unique ()

Nous avons appris à extraire un ensemble de valeurs distinctes d'une seule colonne de DataFrame. Mais dans certaines situations. Vous pouvez avoir besoin de trouver des valeurs distinctes sur plusieurs colonnes. Dans de telles circonstances, avant d'utiliser la fonction () unique de l'objet série (colonne), nous combinerons les valeurs des colonnes à partir desquelles nous voulons obtenir les valeurs uniques. Nous utiliserons le même DataFrame, que nous avons créé dans l'exemple n ° 2.


Supposons que nous voulons obtenir les valeurs distinctes des colonnes «âge» et «salaire». Tout d'abord, nous fusions les données des deux colonnes en utilisant le script suivant.


Dans le code précédent, nous avons sélectionné les données de la colonne `` Age '', puis utilisé la colonne d'ajout («salaire») pour fusionner les données de la colonne «Salaire» avec les données de la colonne «Age». Après avoir fusionné les données, nous avons utilisé la fonction unique () pour obtenir les valeurs distinctes des deux colonnes.


Comme on peut le voir, nous avons réussi à extraire les valeurs uniques des deux colonnes.

Exemple # 04: Utilisation de la fonction Drop_Duplicate () pour obtenir des valeurs uniques des colonnes Pandas

La fonction Drop_Duplicate est une fonction intégrée de la bibliothèque Pandas. Il peut être utilisé pour supprimer les valeurs de répétition ou les données en double de la colonne de DataFrame. Les lignes avec des valeurs en double sont supprimées tandis que le type de données de l'objet ou de son sous-ensemble reste préservé. La méthode drop_duplicate () est l'option la plus rapide pour éliminer les valeurs en double lorsque vous travaillez avec un grand groupe de données.


Maintenant, nous allons utiliser la fonction Drop_Duplicate () pour éliminer les colonnes ayant des valeurs en double.


Comme vous pouvez le voir, toutes les lignes ont été éliminées en considérant les données en double dans la colonne «Salaire». Seule la première instance de valeurs en double est laissée dans le dataframe.

Conclusion

Dans cet article, nous avons discuté de la façon d'obtenir des valeurs uniques des colonnes du DataFrame dans Pandas. Après avoir passé ce tutoriel, vous pourrez peut-être extraire des valeurs uniques de la colonne Pandas par vous-même. Nous avons mis en œuvre quelques exemples pour vous apprendre à obtenir des valeurs uniques des colonnes Pandas et des colonnes Pandas numériques en utilisant la fonction unique () et drop_duplicate ().