Pyspark - Pandas Series NSMALLEST & NLARGE

Pyspark - Pandas Series NSMALLEST & NLARGE

«Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark en utilisant les séries, qui stockera les données données dans un tableau (colonne à Pyspark en interne).

La série Pyspark - Pandas représente la série Pandas, mais elle détient la colonne Pyspark en interne.

Pandas Support Series Structure de données et Pandas est importé du module Pyspark.

Avant cela, vous devez installer le module Pyspark."

Commande

pip install pyspark

Syntaxe à importer

De Pyspark Import Pandas

Après cela, nous pouvons créer ou utiliser la série à partir du module Pandas.

Syntaxe pour créer des séries Pandas

pyspark.pandas.Série()

Nous pouvons passer une liste ou une liste de listes avec des valeurs.

Créons une série Pandas via Pyspark qui a cinq valeurs numériques.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
Série #Create avec 5 éléments
pyspark_series = pandas.Série ([90,56,78,54,0])
imprimer (pyspark_series)

Sortir

Maintenant, nous allons entrer dans notre tutoriel.

pyspark.pandas.Série.nsmallest ()

nsmallest () de la série Pyspark Pandas est utilisé pour renvoyer les premières valeurs qui sont minimum. Simplement, il renverra les premières plus petites valeurs de la série de valeurs. Il faut un paramètre.

Syntaxe

pyspark_series.nsmalst (n)

Où Pyspark_Series est la série Pyspark Pandas

Paramètre
n est utilisé pour renvoyer le nombre de valeurs minimales de toute la série Pyspark basée sur la colonne

Exemple 1
Renvoie les 2 premières plus petites valeurs de la série Pyspark Pandas.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
Série #Create avec 5 éléments
pyspark_series = pandas.Série ([90,56,78,54,0])
#return 2 premières petites valeurs
imprimer (pyspark_series.nsmalst (2))

Sortir

Les 2 premières valeurs petites sont 0 et 54.

Exemple 2
Renvoie les 4 premières plus petites valeurs de la série Pyspark Pandas.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
Série #Create avec 5 éléments
pyspark_series = pandas.Série ([90,56,78,54,0])
#return 4 premières petites valeurs
imprimer (pyspark_series.nsmalst (4))

Sortir

Les 4 premières valeurs petites sont 0, 54, 56 et 78.

pyspark.pandas.Série.nlagg ()

NLargest () dans la série Pyspark Pandas est utilisé pour renvoyer les premières valeurs qui sont maximales. Simplement, il renverra les premières valeurs les plus importantes de la série de valeurs. Il faut un paramètre.

Syntaxe

pyspark_series.nlagg (n)

Où Pyspark_Series est la série Pyspark Pandas

Paramètre
n est utilisé pour renvoyer le nombre de valeurs maximales de toute la série Pyspark basée sur la colonne

Exemple 1
Renvoyez les 2 premières valeurs les plus importantes de la série Pyspark Pandas.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
Série #Create avec 5 éléments
pyspark_series = pandas.Série ([90,56,78,54,0])
#return 2 premières valeurs grandes
imprimer (pyspark_series.nla plus grand (2))

Sortir

Les 2 premières valeurs grandes sont 90 et 78.

Exemple 2
Renvoyez les 4 premières valeurs les plus importantes de la série Pyspark Pandas.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
Série #Create avec 5 éléments
pyspark_series = pandas.Série ([90,56,78,54,0])
#return 4 premières valeurs grandes
imprimer (pyspark_series.nla plus grand (4))

Sortir

Les 4 premières valeurs petites sont de 90,78,56 et 54.

Conclusion

Dans ce didacticiel de la série Pyspark Pandas, nous avons vu comment obtenir les premières valeurs minimales et maximales en utilisant des fonctions NSmalst () et NLargest (). Ces fonctions prennent un paramètre qui fait référence au nombre de lignes à retourner (lignes minimales pour nsmalst () et maximum les lignes pour nlagg ()).