Pyspark - Pandas DataFrame représente le Pandas DataFrame, mais il contient le Pyspark DataFrame en interne.
Pandas prend en charge la structure des données DataFrame et Pandas est importé du module Pyspark.
Avant cela, vous devez installer le module Pyspark."
Commande
pip install pysparkSyntaxe à importer
De Pyspark Import PandasAprès cela, nous pouvons créer ou utiliser le DataFrame à partir du module Pandas.
Syntaxe pour créer Pandas DataFrame
pyspark.pandas.Trame de données()Nous pouvons passer un dictionnaire ou une liste de listes avec des valeurs.
Créons un Pandas DataFrame via Pyspark qui a quatre colonnes et cinq lignes.
#Import Pandas du module PysparkSortir
Maintenant, nous allons entrer dans notre tutoriel.
Voyons-les un par un.
Pyspark - Pandas DataFrame: NSMALLEST ()
pyspark.pandas.Trame de données.nsmallest ()NSMALLEST () du Pyspark Pandas DataFrame est utilisé pour renvoyer les premières lignes minimales en fonction de la colonne. Il renverra donc les premières lignes minimales entières présentes dans le Pyspark Pandas DataFrame. Il faut deux paramètres.
Syntaxe
pyspark_pandas.nsmalst (n, colonne)Paramètres
Exemple 1
Dans cet exemple, nous obtiendrons les 2 premières lignes minimales basées sur la colonne Mark1.
Sortir
Ici, 54 et 67 sont les 2 premières valeurs les moins (minimales) présentes dans la colonne Mark1. Donc, 2 rangées correspondantes ont été retournées.
Exemple 2
Dans cet exemple, nous obtiendrons les 4 premières lignes minimales basées sur la colonne Student_lastName.
Sortir
Ici, Chamundi, Hyna, Kapila et Lehara sont les 4 premières valeurs les moins (minimales) présentes dans la colonne Student_name. Donc, 4 lignes correspondantes ont été retournées.
Pyspark - Pandas DataFrame: nlaggest ()
pyspark.pandas.Trame de données.nlagg ()NLargest () dans le Pyspark Pandas DataFrame est utilisé pour renvoyer les premières lignes qui sont maximales en fonction de la colonne. Il renverra donc les premières lignes maximales entières présentes dans le Pyspark Pandas DataFrame. Il faut deux paramètres.
Syntaxe
pyspark_pandas.nlagg (n, colonne)Paramètres
Exemple 1
Dans cet exemple, nous obtiendrons les 2 premières lignes maximales basées sur la colonne Mark1.
Sortir
Ici, 90 et 90 sont les 2 premières valeurs grandes (maximales) présentes dans la colonne Mark1. Donc, 2 rangées correspondantes ont été retournées.
Exemple 2
Dans cet exemple, nous obtiendrons les 4 premières lignes maximales basées sur la colonne Student_lastName.
Sortir
Ici, Manasa, Lehara, Kapila et Hyna sont les 4 premières valeurs élevées (maximales) présentes dans le Student_name.colonne. Donc, 4 lignes correspondantes ont été retournées.
Conclusion
Dans ce didacticiel Pyspark Pandas Dataframe, nous avons vu comment obtenir les premières valeurs minimales et maximales en utilisant NSMALLEST () et NLARGET (). Ces fonctions prennent le nom de colonne qui renvoie les lignes en fonction de cette colonne.