Nous apprendrons la bibliothèque Pyspark dans cette session. Il s'agit d'un moteur de traitement distribué à usage général qui vous permet de gérer efficacement les données sur plusieurs postes de travail. Nous découvrirons également la méthode Pyspark Fillna () qui est utilisée pour remplir les valeurs nulles dans le dataframe avec une valeur personnalisée, ainsi que ses exemples.
Qu'est-ce que Pyspark?
Pyspark est l'une des langues soutenues de Spark. Spark est une grande technologie de traitement des données qui peut gérer les données sur une échelle de pétaoctet. Pyspark est une coopération Apache Spark et Python. Python est un langage de programmation de haut niveau moderne, tandis qu'Apache Spark est une source ouverte qui se concentre sur les tâches de calcul des clusters et cible principalement la vitesse, la facilité d'utilisation et l'analyse en streaming. Parce que Spark est principalement construit à Scala, la création d'applications Spark à Scala ou Java vous permet d'accéder à plus de ses capacités que d'écrire des programmes Spark en Python ou R. Pyspark, par exemple, ne prend pas actuellement en charge l'ensemble de données. Vous pouvez développer des applications Spark pour traiter les données et les lancer sur la plate-forme Spark à l'aide de Pyspark. L'AWS propose l'EMM géré et la plate-forme Spark.
Si vous faites une science des données, Pyspark est une meilleure option que Scala car il existe de nombreuses bibliothèques de science des données populaires écrites en python telles que Numpy, Tensorflow et Scikit-Learn. Vous pouvez utiliser Pyspark pour traiter les données et établir un cluster EMR sur AWS. Pyspark peut lire les données à partir d'une variété de formats de fichiers, notamment CSV, Parquet, JSON, ainsi que des bases de données. Pour les ensembles de données plus petits, Pandas est utilisé, tandis que pour les ensembles de données plus grands, Pyspark est utilisé. Par rapport à Pyspark, Pandas donne des résultats plus rapides. Selon la disponibilité de la mémoire et la taille des données, vous pouvez basculer entre Pyspark et Pandas pour améliorer les performances. Utilisez toujours des pandas sur Pyspark lorsque les données à traiter sont suffisantes pour la mémoire. Spark est rapidement devenu la technologie préférée de l'industrie pour le traitement des données. Ce n'est cependant pas le premier. Avant Spark, le moteur de traitement était MapReduce.
Qu'est-ce que Pyspark Fillna ()?
Pyspark Fillna () est une méthode Pyspark utilisée pour remplacer les valeurs nulles dans une seule ou plusieurs colonnes dans un modèle de trame de données Pyspark. Selon les exigences de l'entreprise, cette valeur pourrait être n'importe quoi. Il peut être 0 ou une chaîne vide et tout littéral constant. Cette méthode Fillna () est utile pour l'analyse des données car elle élimine les valeurs nulles qui peuvent entraîner des difficultés avec l'analyse des données.
Exemple d'utilisation de Fillna ()
1 2 3 4 5 6 7 8 9 dix 11 12 13 14 15 16 | de Pyspark.SQL IMPORT SPARKSESSE Spark_Session = Sparkcession.constructeur \ .maître ('local [1]') \ .appname ('exemple') \ .getorCreate () df = Spark_Session.CreatedataFrame ( [ (1, «Canada», «Toronto», aucun), (2, «Japon», «Tokyo», 8000000), (3, «Inde», «Amritsar», aucun), (4, «Turquie», «Ankara», 550000), ]], [«id», «pays», «ville», «population»] ) df.montrer() |
Sortir:
1 2 3 4 5 6 7 8 9 dix 11 12 13 14 15 | +---+---------+--------------+-----------+ | ID | pays | Ville | Population | +---+---------+--------------+-----------+ | 1 | Canada | Toronto | NULL | | 2 | Japon | Tokyo | 8000000 | | 3 | Inde | Amritsar | NULL | | 4 | Turquie | Ankara | 550000 | +---+---------+--------------+-----------+ |
Nous pouvons maintenant utiliser simplement l'argument de valeur pour remplacer toutes les valeurs nulles dans un dataframe:
1 2 3 4 5 6 7 8 9 dix 11 12 13 14 15 16 17 18 19 20 21 | df.n / A.remplir (valeur = 0).montrer() df.n / A.remplissage (valeur = 0, sous-ensemble = ["population"]).montrer() df.fillna (valeur = 0).montrer() +---+---------+--------------+-----------+ | ID | pays | Ville | Population | +---+---------+--------------+-----------+ | 1 | Canada | Toronto | 0 | | 2 | Japon | Tokyo | 8000000 | | 3 | Inde | Amritsar | 0 | | 4 | Turquie | Ankara | 550000 | +---+---------+--------------+-----------+ |
L'opération ci-dessus remplacera toutes les valeurs nulles dans les colonnes entières par 0.
Conclusion
Nous avons discuté de la méthode Pyspark, Pyspark Fillna () et ses exemples dans cette session. La méthode Fillna () remplace toutes les valeurs nulles dans le dataframe par nos valeurs personnalisées.