Resemple de pandas

Resemple de pandas

«Les données sur les séries chronologiques doivent souvent être compilées ou résumées à l'aide d'un nouveau délai. Ces données de séries chronologiques sont généralement traitées à l'aide de Pandas «DataFrame.Fonction Resample () ”. C'est une approche pratique pour rééchantillonner les séries chronologiques et convertir les fréquences."

Pour utiliser cette méthode, nous devons suivre la syntaxe ci-dessous:

Nous examinerons l'exécution pratique de la méthode «Resample ()» avec différentes techniques dans ce guide.

Exemple n ° 1: Utilisation de la méthode Resample () pour calculer la somme

Pour le rééchantillonnage des données de séries chronologiques, nous utiliserons la méthode Pandas «Resample ()». Nous verrons l'exécution du script Python pour rééchantillonner les données de séries chronologiques pour trouver des fréquences dans des jours spécifiés.

La première exigence et fondamentale est un outil ou un logiciel qui nous fournit un environnement pour compiler et exécuter le programme. Nous avons sélectionné l'outil Spyder pour l'implémentation des codes d'exemple. Nous avons ouvert l'interface Spyder; Un nouveau fichier avec le «.L'extension py ”a été lancée. Maintenant commencez à écrire le script Python.

Le requis pour exécuter le script ici est la bibliothèque «pandas». En effet. Pour pouvoir l'utiliser dans le script, nous devons d'abord importer la bibliothèque qui le maintient. Nous avons donc chargé la bibliothèque Pandas dans notre fichier Python et avons fait «PD» à utiliser comme alias de «pandas» tout au long du programme.

Le code a commencé par invoquer le «PD.Fonction Date_range () ”. Il générera une plage de dates avec les limites fournies. Nous créons une gamme de dates car la méthode Pandas «Resample ()» fonctionne sur la série Date_time. Entre les supports de la fonction, nous avons défini une date comme «2022/2/3». C'est la valeur initiale de la plage de dates. Le deuxième paramètre, «période», définira le nombre d'un tuple pour la date à laquelle nous avons spécifié «15», de sorte que la plage de dates commence à partir de «2022/2/3» et monte à 15 tuples. Ici, la fréquence est «D» qui signifie «jour» par défaut. Ainsi, les intervalles seront générés à la base des jours. Le «PD.DATE_RANGE () ”Méthode créera une plage de dates de 15 jours. Pour enregistrer la plage de dates de sortie, nous avons initialisé une variable «index_col». Nous pouvons maintenant accéder à la plage de dates en mentionnant cette variable.

Après cela, nous devons construire un Pandas DataFrame. Pour construire une dataframe avec des valeurs définies par l'utilisateur, les pandas nous fournissent une fonction «PD.Trame de données()". Nous avons appelé cette méthode dans notre programme et l'avons initialisée avec 3 colonnes qui sont «étranges», «même» et «prime». Les valeurs définies pour chaque colonne sont de la même longueur, qui est 15.

La première colonne, "Odd", maintient des nombres impairs comme ses valeurs. Ces valeurs sont «1», «3», «5», «7», «9», «11», «13», «15», «17», «19», «21», «23» , «25», «27» et «29». Même les chiffres sont stockés dans la colonne «pair» en tant que «2», «4», «6», «8», «10», «12», «14», «16», «18», «20» , «22», «24», «26», «28» et «30». Alors que la dernière colonne, «Prime», a les 15 premiers nombres Prime comme valeurs: «1», «2», «3», «5», «7», «11», «13», «17» , «19», «23», «29», «31», «37», «41» et «47».

Juste après avoir défini des valeurs pour toutes les colonnes du «PD.Méthode dataframe () », nous avons également définie notre colonne d'index. Nous l'avons fait en utilisant la propriété «Index» de la variable DataFrame et en lui attribuant la variable «index_col», qui maintient la série Date Range. Cela signifie que nous définissons la plage de dates comme la colonne d'index de notre DataFrame au lieu de la liste d'index par défaut. L'objet «nombres» préservera le résultat qui sera généré lorsque nous invoquerons le «PD.Fonction DataFrame () ”. Le DataFrame est finalement affiché en utilisant la méthode «print ()». Cette méthode présente simplement tout ce qui est fourni en entrée. Nous avons saisi les «nombres» de l'objet pour le montrer sur le terminal.

Le programme exécuté génère une sortie où nous pouvons voir un DataFrame a 3 colonnes, «Odd», «Même» et «Prime», tandis que la colonne d'index a une plage de dates qui commence à partir de «2022-02-03» et se termine et se termine à «2022-02-17», créant un intervalle de 15 jours.

Nous allons maintenant effectuer un rééchantillonnage sur ce dataframe. Le Pandas «Resample ()» fonctionne avec le DateTimeIndex. Cette méthode prend les données de séries chronologiques en entrée et transforme ces données de séries chronologiques en différentes fréquences définies.

Pour cette illustration, nous changerons la fréquence du DateTimeIndex d'un intervalle d'un jour à un intervalle de 2 jours. Nous avons invoqué le «PD.Resample ().Méthode sum () ”. La méthode «resample ()» déclarera la fréquence, tandis que la fonction «sum ()» calculera la somme des jours pour la fréquence fournie. Nous avons fourni le nom du DataFrame comme «nombres» avec le «.Resample ().Méthode sum () ”.

La «règle» du paramètre est adoptée dans la méthode «Resample ()», et sa valeur est définie sur «2D», ce qui signifie créer la fréquence d'un intervalle de 2 jours, puis calculer la somme des valeurs dans le dataframe pour le 2 jours consécutifs. La dataframe rééchantillonnée résultante sera enregistrée dans la variable "Two_days". Enfin, nous l'avons présenté à l'écran en utilisant la fonction «print ()».

Ici, l'image de sortie affiche une fracture de données rééchantillonnée dans laquelle nous avons 8 enregistrements. La fréquence a été définie pour 2D pour le DatetimeIndex, et la somme des valeurs est calculée pour un intervalle 2D.

Exemple n ° 2: Utilisation de la méthode Resample () pour calculer la moyenne

La première démonstration a utilisé la fonction «sum ()» pour calculer la somme des données rééchantillonnées avec la fréquence de 2 jours. En plus de calculer la somme, nous appliquons également d'autres méthodes avec la méthode «Resample ()». Dans cette illustration, nous allons utiliser la fonction «moyenne ()» pour calculer la moyenne des données réamplifiées avec une fréquence hebdomadaire.

Nous utilisons le même dataframe qui a été créé dans l'instance précédente. Le «DF.Resemple () "La fonction est employée avec le".Méthode moyenne () ». Nous avons invoqué la méthode avec 2 paramètres; «Règle» et «fermé». Le paramètre «règle» prend la durée du temps pour la conversion nécessaire. Comme nous voulons la conversion dans les données hebdomadaires des séries chronologiques, nous avons donc saisi «W»; utilisé pendant une semaine. Le deuxième paramètre, «fermé», est défini sur «à droite» par défaut pour la fréquence «W», mais ici nous l'avons changé en «gauche». Cela signifie que l'intervalle sur le bac gauche est inclusif et que l'intervalle sur le bac droit est restreint.

Ensuite, nous avons utilisé le «.Fonction moyenne () ”, qui calculera la moyenne des valeurs à intervalles hebdomadaires. Le Final DataFrame sera détenu par la variable «moyenne». La fonction «print ()» l'affichera sur la console Python.

Lorsque nous compilons le programme Python, nous obtenons ce DataFrame qui ne contient que 3 enregistrements. Il a calculé les valeurs moyennes pendant une semaine dans chaque colonne.

De la même manière, nous pouvons convertir la fréquence mensuelle en utilisant «M», pour une utilisation trimestrielle «Q», pour une utilisation horaire «H», pour des secondes «S», et de nombreuses autres options sont là pour être employée en fonction de l'exigence.

Conclusion

Les données de séries chronologiques doivent parfois être converties en une nouvelle fréquence. Les pandas nous fournissent une méthode: «DF.resample () ”, pour répondre à ce besoin. Cet article a démontré deux méthodes différentes pour rééchantillonner les données à l'aide de DateTimeIndex. Nous avons exercé différentes techniques pour calculer différentes données d'intervalle. Le premier exemple a expliqué le calcul de la somme de 2 jours de fréquence pour le rééchantillonnage des données, tandis que le 2nd Un exemple a été effectué pour découvrir la moyenne des valeurs sur les bases hebdomadaires. Chaque technique est présentée avec un exemple de code de programme et la sortie correspondante.