Pyspark - Pandas DataFrame NSMALLEST & NLARGEG

Pyspark - Pandas DataFrame NSMALLEST & NLARGEG
«Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark à l'aide de DataFrame, qui stockera les données données au format de ligne et de colonne.

Pyspark - Pandas DataFrame représente le Pandas DataFrame, mais il contient le Pyspark DataFrame en interne.

Pandas prend en charge la structure des données DataFrame et Pandas est importé du module Pyspark.

Avant cela, vous devez installer le module Pyspark."

Commande

pip install pyspark

Syntaxe à importer

De Pyspark Import Pandas

Après cela, nous pouvons créer ou utiliser le DataFrame à partir du module Pandas.

Syntaxe pour créer Pandas DataFrame

pyspark.pandas.Trame de données()

Nous pouvons passer un dictionnaire ou une liste de listes avec des valeurs.

Créons un Pandas DataFrame via Pyspark qui a quatre colonnes et cinq lignes.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [[90,78,90,54,67], 'Mark2': [[ 100,67,96,89,77], «Mark3»: [91,92,98,97,87])
#afficher
imprimer (pyspark_pandas)

Sortir

Maintenant, nous allons entrer dans notre tutoriel.

Voyons-les un par un.

Pyspark - Pandas DataFrame: NSMALLEST ()

pyspark.pandas.Trame de données.nsmallest ()

NSMALLEST () du Pyspark Pandas DataFrame est utilisé pour renvoyer les premières lignes minimales en fonction de la colonne. Il renverra donc les premières lignes minimales entières présentes dans le Pyspark Pandas DataFrame. Il faut deux paramètres.

Syntaxe

pyspark_pandas.nsmalst (n, colonne)

Paramètres

  1. n est utilisé pour retourner le nombre de lignes minimales de l'ensemble des pandas Pyspark en fonction de la colonne
  2. La colonne fait référence au nom de colonne présente dans le pyspark pandas dataframe.

Exemple 1
Dans cet exemple, nous obtiendrons les 2 premières lignes minimales basées sur la colonne Mark1.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [[90,78,90,54,67], 'Mark2': [[ 100,67,96,89,77], «Mark3»: [91,92,98,97,87])
#get 2 premières lignes minimales basées sur la colonne Mark1
imprimer (pyspark_pandas.nsmalst (2, "mark1"))

Sortir

Ici, 54 et 67 sont les 2 premières valeurs les moins (minimales) présentes dans la colonne Mark1. Donc, 2 rangées correspondantes ont été retournées.

Exemple 2
Dans cet exemple, nous obtiendrons les 4 premières lignes minimales basées sur la colonne Student_lastName.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [[90,78,90,54,67], 'Mark2': [[ 100,67,96,89,77], «Mark3»: [91,92,98,97,87])
#get 4 premières lignes minimales basées sur la colonne Student_lastName
imprimer (pyspark_pandas.nsmalst (4, "Student_lastName"))

Sortir

Ici, Chamundi, Hyna, Kapila et Lehara sont les 4 premières valeurs les moins (minimales) présentes dans la colonne Student_name. Donc, 4 lignes correspondantes ont été retournées.

Pyspark - Pandas DataFrame: nlaggest ()

pyspark.pandas.Trame de données.nlagg ()

NLargest () dans le Pyspark Pandas DataFrame est utilisé pour renvoyer les premières lignes qui sont maximales en fonction de la colonne. Il renverra donc les premières lignes maximales entières présentes dans le Pyspark Pandas DataFrame. Il faut deux paramètres.

Syntaxe

pyspark_pandas.nlagg (n, colonne)

Paramètres

  1. n est utilisé pour renvoyer le nombre de lignes maximales de l'ensemble des pandas Pyspark en fonction de la colonne
  2. La colonne fait référence au nom de colonne présente dans le pyspark pandas dataframe.

Exemple 1
Dans cet exemple, nous obtiendrons les 2 premières lignes maximales basées sur la colonne Mark1.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [[90,78,90,54,67], 'Mark2': [[ 100,67,96,89,77], «Mark3»: [91,92,98,97,87])
#get 2 premières lignes maximales basées sur la colonne Mark1
imprimer (pyspark_pandas.nlagg (2, "mark1"))

Sortir

Ici, 90 et 90 sont les 2 premières valeurs grandes (maximales) présentes dans la colonne Mark1. Donc, 2 rangées correspondantes ont été retournées.

Exemple 2
Dans cet exemple, nous obtiendrons les 4 premières lignes maximales basées sur la colonne Student_lastName.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [[90,78,90,54,67], 'Mark2': [[ 100,67,96,89,77], «Mark3»: [91,92,98,97,87])
#get 4 premières lignes maximales basées sur la colonne Student_lastName
imprimer (pyspark_pandas.nlagg (4, "Student_lastName"))

Sortir

Ici, Manasa, Lehara, Kapila et Hyna sont les 4 premières valeurs élevées (maximales) présentes dans le Student_name.colonne. Donc, 4 lignes correspondantes ont été retournées.

Conclusion

Dans ce didacticiel Pyspark Pandas Dataframe, nous avons vu comment obtenir les premières valeurs minimales et maximales en utilisant NSMALLEST () et NLARGET (). Ces fonctions prennent le nom de colonne qui renvoie les lignes en fonction de cette colonne.