«Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark en utilisant les séries, qui stockera les données données dans un tableau (colonne à Pyspark en interne).
La série Pyspark - Pandas représente la série Pandas, mais elle détient la colonne Pyspark en interne.
Pandas Support Series Structure de données et Pandas est importé du module Pyspark.
Avant cela, vous devez installer le module Pyspark."
Commande
pip install pyspark
Syntaxe à importer
De Pyspark Import PandasAprès cela, nous pouvons créer ou utiliser la série à partir du module Pandas.
Syntaxe pour créer des séries Pandas
pyspark.pandas.Série()Nous pouvons passer une liste ou une liste de listes avec des valeurs.
Créons une série Pandas via Pyspark qui a cinq valeurs numériques.
#Import Pandas du module PysparkSortir
Maintenant, nous allons entrer dans notre tutoriel.
pyspark.pandas.Série.nsmallest ()nsmallest () de la série Pyspark Pandas est utilisé pour renvoyer les premières valeurs qui sont minimum. Simplement, il renverra les premières plus petites valeurs de la série de valeurs. Il faut un paramètre.
Syntaxe
pyspark_series.nsmalst (n)Où Pyspark_Series est la série Pyspark Pandas
Paramètre
n est utilisé pour renvoyer le nombre de valeurs minimales de toute la série Pyspark basée sur la colonne
Exemple 1
Renvoie les 2 premières plus petites valeurs de la série Pyspark Pandas.
Sortir
Les 2 premières valeurs petites sont 0 et 54.
Exemple 2
Renvoie les 4 premières plus petites valeurs de la série Pyspark Pandas.
Sortir
Les 4 premières valeurs petites sont 0, 54, 56 et 78.
pyspark.pandas.Série.nlagg ()NLargest () dans la série Pyspark Pandas est utilisé pour renvoyer les premières valeurs qui sont maximales. Simplement, il renverra les premières valeurs les plus importantes de la série de valeurs. Il faut un paramètre.
Syntaxe
pyspark_series.nlagg (n)Où Pyspark_Series est la série Pyspark Pandas
Paramètre
n est utilisé pour renvoyer le nombre de valeurs maximales de toute la série Pyspark basée sur la colonne
Exemple 1
Renvoyez les 2 premières valeurs les plus importantes de la série Pyspark Pandas.
Sortir
Les 2 premières valeurs grandes sont 90 et 78.
Exemple 2
Renvoyez les 4 premières valeurs les plus importantes de la série Pyspark Pandas.
Sortir
Les 4 premières valeurs petites sont de 90,78,56 et 54.
Conclusion
Dans ce didacticiel de la série Pyspark Pandas, nous avons vu comment obtenir les premières valeurs minimales et maximales en utilisant des fonctions NSmalst () et NLargest (). Ces fonctions prennent un paramètre qui fait référence au nombre de lignes à retourner (lignes minimales pour nsmalst () et maximum les lignes pour nlagg ()).