Les pandas suppriment les valeurs aberrantes

Les pandas suppriment les valeurs aberrantes
Nous pouvons utiliser la bibliothèque «Pandas» pour effectuer des tâches mathématiques sur les données de manière gérable. Cette boîte à outils open source est utilisée pour manipuler et analyser les données pour extraire les informations requises des données spécifiées. Lorsque nous discutons des «valeurs aberrantes» dans «Pandas», nous pouvons dire qu'un élément ou un objet de données qui diffère considérablement des autres éléments est appelé «valeur aberrante». Les erreurs de mesure ou de mise en œuvre peuvent en être la raison. L'exploitation aberrante est la technique utilisée pour la découverte des valeurs aberrantes. Il existe de nombreuses méthodes pour trouver des valeurs aberrantes et la procédure de nettoyage est la même pour le cadre de données du panda que pour le cadre de données du panda lui-même. Nous devons supprimer les «valeurs aberrantes» dans l'ensemble de données «Pandas» car lorsque nous supprimons ces valeurs aberrantes, cela aidera souvent notre modèle à généraliser plus efficacement. Nous supprimerons les valeurs aberrantes dans les séries DataFrame et les séries "Pandas" dans cet article en utilisant la méthode "Pandas".

Méthodes pour éliminer les valeurs aberrantes dans les «pandas»

Nous pouvons utiliser deux méthodes dans «Pandas» pour éliminer les valeurs aberrantes dans «Pandas». Ceux-ci sont:

  • Méthode interquartile
  • Méthode de score z

Ces méthodes seront utilisées pour supprimer les «valeurs aberrantes» de la série «Pandas» et de DataFrame «Pandas». Dans cet article, nous illustrons également des exemples de la façon dont nous utilisons ces techniques dans les codes «pandas».

Exemple # 01:

Nous utilisons l'outil «Spyder» pour effectuer les codes «Pandas» qui sont présentés dans cet article. Comme nous allons générer le code «pandas», nous devons «importer» ses modules. Pour importer les modules des «pandas», nous ajoutons «l'importation» qui est le mot-clé, puis nous mettons «Pandas en tant que PD». Cela aidera à obtenir les méthodes «pandas» si nous tapons le «PD» avec le nom de la fonction que nous voulons utiliser. Ensuite, nous avons importé le «Numpy» qui est également la bibliothèque. Nous l'importons comme «NP» afin que nous puissions également obtenir ses méthodes avec le nom de la fonction «Numpy» que nous voulons utiliser.

Après cela, nous avons déclaré «taille» qui est le nom de variable et cette variable est initialisée avec la valeur qui est «15». Maintenant, après avoir initialisé la «taille», nous déclarons également une autre variable nommée «données» en dessous. Ces «données» sont ensuite initialisées avec le «PD.Méthode série () ”. Comme nous avons tapé «PD, nous obtenons la méthode des« pandas ». Dans ce «PD.Série () »Méthode, nous avons mis le« NP.aléatoire.Méthode normale () »et c'est la méthode de la bibliothèque« Numpy »parce que nous avons ajouté« NP »avec lui. Cette méthode nous aide à créer les données normalement distribuées. Ces données sont créées sous la forme de la série «Pandas».

Nous passons le paramètre «taille» dedans et attribuons la variable «taille» que nous avons créée à ce paramètre «taille». Ainsi, il générera une série aléatoire de «pandas» avec la taille de «15» et il est unidimensionnel. La variable «Data» dans laquelle la série aléatoire est stockée est ensuite transmise à la fonction «print ()» donc, elle aide à imprimer cette série aléatoire sur le terminal.

Maintenant, nous pouvons facilement obtenir la sortie des codes de l'application «Spyder» de deux manières. L'un d'eux consiste à appuyer sur les touches «Shift + Enter» et l'autre consiste à utiliser l'icône «Run» de cet outil. Maintenant, après avoir fait cela, nous avons le résultat du code sur le terminal de cet outil. Le résultat est également montré dans lequel la série est affichée qui est la série aléatoire que nous avons générée dans le code «Pandas». Maintenant, nous allons supprimer les valeurs aberrantes de cette série ci-dessous.

Ici, nous ajustons les valeurs «quantile ()». Nous avons ajusté ".15 ”comme valeur du premier quantile et c'est aussi le quantile le plus bas. Ensuite, nous avons ajusté le «.Valeur de 85 ”comme valeur du deuxième quantile et c'est la valeur quantile la plus élevée. Nous avons ajouté le nom de la série qui est des «données». Dans les crochets, nous plaçons à nouveau «données», puis écrivons la méthode «entre ()». À l'intérieur de cette méthode, nous avons ajouté deux paramètres dans lesquels la première méthode est le quantile le plus bas et le deuxième paramètre est le quantile le plus élevé.

Nous avons également ajouté cette méthode dans la variable «Data1», donc lorsque nous exécutons ce code, les valeurs après le suppression des valeurs aberrantes seront stockées dans la variable «Data1». Maintenant, il éliminera toutes les valeurs aberrantes qui se trouvent dans le plus bas ainsi que le quantile le plus élevé. Ensuite, nous avons «imprimer» dans lequel nous avons ajouté «Data1».

Les valeurs aberrantes sont supprimées de la série que nous avons générée ci-dessus et seules neuf valeurs sont affichées. La série que nous avons créée ci-dessus contient 15 valeurs mais après avoir retiré les valeurs aberrantes, il y a neuf valeurs.

Exemple # 02:

Nous importons également les «statistiques» de la bibliothèque «Scipy» parce que nous devons utiliser cette méthode dans ce code. Nous créons une dataframe dans laquelle nous n'avons ajouté qu'une seule colonne qui est nommée «données». Nous avons ajouté «-2, 7, 15, 19, 34, 39, 50, 13, 19, 14, 87, 89 et 1456» à cette colonne «Data». De plus, nous avons stocké ce dataframe dans le «my_df». Ensuite, nous imprimons simplement "my_df".

Le dataframe est rendu dans ce résultat. Maintenant, nous appliquerons la méthode «z-score» à cette dataframe pour supprimer les valeurs aberrantes.

Nous trouvons le «zscore» en utilisant les «statistiques» avec lui que nous avons importés ci-dessus. Nous n'utilisons cette méthode que lorsque nous importons les «statistiques». Nous avons ajouté la colonne «Z_Score» où nous stockons les valeurs «Zscore». Pour trouver les valeurs «Zscore» de la colonne «Data», nous avons ajouté le nom de données et le nom de la colonne dans cette méthode. Ensuite, nous rendons également «my_data» dans laquelle la colonne «Z_Score» est également ajoutée.

Deux colonnes sont indiquées dans ce résultat. La colonne «Data», que nous avons ajoutée dans le DataFrame et l'autre est la colonne «Z_SCORE», contient les valeurs «Zscore» que nous obtenons en appliquant les «statistiques.ZSCORE () »Méthode. Ici, vous pouvez noter que toutes les valeurs, qui sont présentes dans la colonne "Z_Score", sont négatives mais la dernière est la valeur positive. Donc, cela signifie que c'est la valeur aberrante et nous devons le supprimer.

Selon les critères empiriques, les valeurs aberrantes sont les valeurs du score z qui sont supérieures à 3. Nous avons donc ajouté la méthode «loc» pour filtrer les lignes dans lesquelles la valeur du «z_score» est inférieure à 3 ou égale à 3 et il affiche également ces lignes dans le résultat car cette méthode est écrite à l'intérieur de «l'impression ( ) ". Toutes les autres valeurs sont des valeurs aberrantes et seront supprimées de ce DataFrame.

Ici, toutes les valeurs inférieures à 3 apparaissent. La dernière valeur est supprimée car elle était supérieure à 3 et elle était la valeur aberrante de ce dataframe.

Conclusion

Cet article est présenté pour décrire le concept «Pandas Supprimer les valeurs aberrants» en détail. Nous avons discuté dans cet article que les valeurs qui sont présentes dans un ensemble de données jugées extrêmes, erronées ou non représentatives de l'objet de l'ensemble de données sont appelées valeurs aberrantes. Nous avons également expliqué que ces valeurs aberrantes peuvent être le résultat de méthodes de collecte de données inexactes ou de constatations réelles. Nous avons discuté de deux méthodes pour éliminer ces valeurs aberrantes dans des «pandas». Nous avons supprimé les valeurs aberrantes de la série «Pandas» et DataFrame dans cet article et avons également discuté des deux méthodes en détail.