Fonction Pandas Ffill

Célia Girard

La gestion des données manquantes fait partie intégrante de chaque stratégie de science des données. Les moyens courants de traiter les données manquantes impliquent d'ignorer les valeurs manquantes, de supprimer les entrées avec des enregistrements manquants et de remplir les données manquantes. Dans ce tutoriel, nous examinerons la fonction Pandas «DataFrame.ffill () ”pour remplir les données manquantes.

Méthode Pandas Ffill ()

La méthode pandas ffill () nous permet de remplir la valeur nan dans le cadre de données. Le ffill signifie transférer le remplissage, ce qui signifie que les valeurs nulles sont remplacées par les données de la colonne ou de la ligne précédente.

La syntaxe pour l'utilisation de cette méthode est donnée ici:

L '«axe» est l'axe le long desquels remplir les valeurs NAN. Sa valeur par défaut est 0. Ce paramètre sera utilisé dans nos exemples ici.

À l'aide de exemples de code du programme Python, nous allons expliquer comment utiliser «ffill ()» pour transférer les valeurs manquantes de remplissage dans toutes les colonnes d'un pandas dataframe dans cet article.

Exemple # 1: Utilisation de la méthode ffill () pour remplir les valeurs le long des lignes

Dans cette illustration, vous verrez comment nous remplirons les valeurs NAN dans un cadre de données le long de l'axe d'index en utilisant la méthode "ffill ()".

La mise en œuvre pratique de tout programme commence par la sélection d'un outil d'exécution approprié. Pour ce tutoriel, nous avons choisi l'outil «Spyder» pour mettre en pratique l'échantillon de script Python. Le chargement de la bibliothèque Pandas dans notre fichier Python nous rendra capable d'employer toutes les fonctionnalités fournies par Pandas. «PD» sera utilisé dans le code où que nous ayons besoin d'utiliser «Pandas» comme alias.

La deuxième partie du code possède deux opérations; Pour créer un cadre de données avec certaines valeurs NAN à l'aide du «PD Pandas.Méthode DataFrame () ”puis remplissez ces valeurs NAN en utilisant la fonction Pandas" ffill () ". Prenant la main sur la première opération, qui est de créer un cadre de données avec certaines valeurs NAN, nous avons invoqué les pandas «PD.Méthode DataFrame () ”ici. Cette méthode générera une trame de données avec des valeurs spécifiées ou un fichier CSV.

Ici, nous construisons la trame de données avec des données définies par l'utilisateur au lieu d'importer un fichier CSV. Le cadre de données est initialisé par quatre colonnes avec des titres comme mentionné: «vert», «blanc», «brun» et «orange.«La longueur de chaque colonne que nous avons créée ici est quatre. Nous devons faire de toutes les colonnes de la même taille pour un dataframe. Notre première colonne de trame de données, «Green», contient les valeurs «7», «1», «aucun» et «3». La colonne «blanche» contient des entrées qui sont «7», «2», «1» et «9». La colonne «Brown» a des valeurs «2», «6», «8» et «Aucun», tandis que la colonne «Orange» stocke «None», «6», «9» et «2».

Pour préserver cette trame de données, nous avons besoin d'un objet de trame de données. Nous l'avons donc créé avec le nom «visuel» et avons fait stocker le cadre de données que nous avons construit à partir du «PD.Méthode DataFrame () ». Maintenant, pour afficher ce cadre de données, nous venons de les stocker dans l'objet de trame de données «visuel», que nous avons appelé la méthode «print ()» de programmation Python.

Lorsque nous exécutons ce script Python, sur lequel nous avons élaboré ci-dessus, en appuyant sur l'option "Exécuter le fichier", un dataframe de quatre colonnes s'affiche sur la console. Ici, vous pouvez voir que ce DataFrame a trois valeurs NAN.

Nous avons terminé la première opération de génération du cadre de données. Maintenant, nous allons passer à l'autre partie, qui est de remplir ces valeurs NAN. Nous le ferons en utilisant la méthode des pandas «ffill».

Nous avons invoqué «DataFrame.ffill () ”pour remplir toutes les valeurs NAN dans notre DataFrame. Nous avons fourni le nom de notre DataFrame que nous venons de créer ci-dessus «visuel» avec le «.Film () ”Méthode. Entre les parenthèses de cette fonction, un «axe» paramètre est utilisé. Nous l'avons réglé sur «0», qui représente l'axe de ligne ou d'index. Parce que nous utilisons la méthode «Fill ()» pour remplir les valeurs NAN le long de l'axe de ligne pour cette illustration. Nous avons donc écrit tout cela comme «visuel.ffill (axe = 0) ”puis placé cela dans la méthode« print () »pour imprimer le cadre de données avec les valeurs NAN remplies le long de l'axe de ligne.

Voici le cadre de données de sortie. Chaque valeur NAN est remplie en utilisant la valeur correspondante de la ligne précédente lorsque FFill () est exécuté sur l'index ou l'axe de ligne. Vous avez observé que les entrées de la toute première rangée sont toujours des valeurs de nan car il n'y a pas de ligne dessus, dont les valeurs non na se propageraient. Toutes les autres valeurs NAN sont remplacées avec succès en copiant les valeurs de ligne correspondantes.

Exemple # 1: Utilisation de la méthode ffill () pour remplir les valeurs le long des colonnes

Cette illustration vous indiquera comment remplir les valeurs NAN dans un cadre de données le long de l'axe de la colonne en utilisant la méthode Pandas «Fill ()». Commençons à travailler sur cette technique.

Nous avons lancé l'outil «Spyder» et avons commencé à écrire le code Python. Tout d'abord, nous devons obtenir la condition préalable au programme, qui charge la bibliothèque Pandas. Nous devons importer cette bibliothèque dans un fichier Python parce que nous allons utiliser Pandas «PD.DataFrame () »et« DataFrame.FFILL () »Méthodes de cette illustration, qui ne peuvent être utilisées que si nous avons accès à cette bibliothèque.

Nous devons générer un cadre de données en utilisant des pandas «PD.Méthode DataFrame () ». La méthode est appelée et initialisée par quatre colonnes, qui sont «P1», «P2», «P3» et «P4». La première colonne ici, «P1», a des valeurs de «1», «12», «7», «4» et «aucun». Les enregistrements «P2» sont «13», «9», «aucun», «4» et «3». «P3» a des entrées «Aucun», «14», «1», «8» et «7». Les valeurs stockées dans «P4» sont «11», «3», «16», «8» et «Aucun». Nous avons stocké ce cadre de données dans l'objet de trame de données «Score». Maintenant, pour afficher ce dataframe sur la console, nous avons appelé la méthode «print ()».

Cet extrait de code est exécuté pour afficher la trame de données créée. Ici, vous pouvez observer que le cadre de données a quatre colonnes, et dans chaque colonne, nous avons trouvé une valeur nan. Dans l'ensemble, nous avons quatre entrées nulles dans le cadre de données.

Pour remplir ces valeurs nulles le long de l'axe de colonne dans le cadre de données, nous avons utilisé le Pandas «DataFrame.Méthode ffill () ”. Nous avons invoqué le «DataFrame.fonction ffill () ”. Ici, nous l'avons utilisé avec le paramètre «axe» et le définissons sur «1», qui fait référence à l'axe de la colonne parce que nous remplissons les valeurs nulles le long des colonnes pour cette démonstration. Toute la ligne de script est écrite comme «Score.ffill (axe = 1) », puis, pour la nécessité de montrer ce dataframe rempli de résulsion sur la console, nous avons mis cette fonction entre les accolades de la méthode« print () »et l'avons invoquée.

Cela nous fait casser le dataframe ci-dessous. Comme vous pouvez le voir, la valeur de la première colonne est NAN car il n'y a plus de colonne pour le remplir avec la valeur de la colonne précédente le long de l'axe de la colonne.

Conclusion:

Travailler avec les cadres de données et la gestion des valeurs nulles est un besoin central et fondamental dans les processus d'analyse des données. Dans ce tutoriel, nous avons appris que les pandas fournissaient «DataFrame.FFILL () ”Méthode pour remplir les enregistrements NAN dans le cadre de données. Nous vous sommes familiarisés avec les deux techniques pour remplir le cadre de données. Chaque stratégie est élaborée avec un exemple de scripts Python pratiquement mis en œuvre exécuté à l'aide de l'outil «Spyder». Vous pouvez utiliser chaque technique en fonction de vos besoins.

Python

Pandas read_csv multiprocessement

Pour améliorer la vitesse de chargement des données, y compris ses avantages et ses limites le «PD.L...

Nathan Blanc

Windows OS

Quelle est la différence entre Windows Top 10 Home et Pro

La version «Pro» est destinée aux utilisateurs professionnels et a plus d'outils administratifs, tan...

Julien Dumas

Python

Convertir une chaîne en json python

La fonction du module JSON, la fonction du module «AST», ou la fonction «ev ()» est utilisée pour co...

Lena Martinez