Pyspark - Pandas DataFrame représente le Pandas DataFrame, mais il contient le Pyspark DataFrame en interne.
Les Pandas prennent en charge la structure des données DataFrame et les pandas sont importés du module Pyspark.
Avant cela, vous devez installer le module Pyspark."
Commande
pip install pysparkSyntaxe à importer:
De Pyspark Import PandasAprès cela, nous pouvons créer ou utiliser le DataFrame à partir du module Pandas.
Syntaxe pour créer Pandas DataFrame:
pyspark.pandas.Trame de données()Nous pouvons passer un dictionnaire ou une liste de listes avec des valeurs.
Créons un Pandas DataFrame via Pyspark qui a quatre colonnes et cinq lignes.
#Import Pandas du module PysparkSortir:
Maintenant, nous allons entrer dans notre tutoriel.
Il existe plusieurs façons de retourner les lignes supérieures et dernières du Pyspark Pandas DataFrame.
Voyons-les un par un.
pyspark.pandas.Trame de données.diriger
head () retournera les lignes supérieures en haut du Pyspark Pandas DataFrame. Il prend n comme paramètre qui spécifie le nombre de lignes affichées du haut. Par défaut, il renverra les 5 premières lignes.
Syntaxe:
pyspark_pandas.tête (n)Où pyspark_pandas est le pyspark pandas dataframe.
Paramètre:
n Spécifie une valeur entière qui affiche le nombre de lignes en haut du Pyspark Pandas DataFrame.
Nous pouvons également utiliser la fonction Head () pour afficher une colonne spécifique.
Syntaxe:
pyspark_pandas.colonne.tête (n)Exemple 1
Dans cet exemple, nous retournerons les lignes des 2 et 4 supérieures dans la colonne Mark1.
#Import Pandas du module PysparkSortir:
0 90Nous pouvons voir que les lignes des 2 et 4 premières ont été sélectionnées dans la colonne Marks1.
Exemple 2
Dans cet exemple, nous retournerons les 2 et 4 premières lignes dans la colonne Student_lastName.
#Import Pandas du module PysparkSortir:
0 ManasaNous pouvons voir que les lignes top 2 et 4 ont été sélectionnées parmi les Student_lastName colonne.
Exemple 3
Dans cet exemple, nous retournerons les 2 premières lignes de l'ensemble des données.
#Import Pandas du module PysparkSortir:
Student_lastName Mark1 Mark2 Mark3Nous pouvons voir que l'intégralité de Dataframe est retournée avec les 2 premières lignes.
pyspark.pandas.Trame de données.queue
Tail () renverra les lignes du dernier du Pyspark Pandas DataFrame. Il prend n comme paramètre qui spécifie le nombre de lignes affichées à partir du dernier.
Syntaxe:
pyspark_pandas.queue (n)Où pyspark_pandas est le pyspark pandas dataframe.
Paramètre:
n Spécifie une valeur entière qui affiche le nombre de lignes du dernier du Pyspark Pandas DataFrame. Par défaut, il renverra les 5 dernières lignes.
Nous pouvons également utiliser la fonction tail () pour afficher des colonnes spécifiques.
Syntaxe:
pyspark_pandas.colonne.queue (n)Exemple 1
Dans cet exemple, nous retournerons les 2 et 4 dernières lignes dans la colonne Mark1.
#Import Pandas du module PysparkSortir:
3 54On peut voir que les 2 dernières lignes ont été sélectionnées dans la colonne Marks1.
Exemple 2
Dans cet exemple, nous retournerons les 2 et 4 dernières lignes dans la colonne Student_lastName.
#Import Pandas du module PysparkSortir:
3 kapilaNous pouvons voir que les 2 dernières lignes ont été sélectionnées parmi les Student_lastName colonne.
Exemple 3
Dans cet exemple, nous retournerons les 2 dernières lignes de l'ensemble de DataFrame.
#Import Pandas du module PysparkSortir:
Student_lastName Mark1 Mark2 Mark3Nous pouvons voir que l'intégralité de DataFrame est retournée avec les 2 dernières lignes.
Conclusion
Nous avons vu comment afficher les lignes supérieure et dernière des fonctions Pyspark Pandas Dataframe à l'aide de la tête () et de la tail (). Par défaut, ils retournent 5 lignes.Les fonctions head () et tail () sont également utilisées pour obtenir les lignes supérieure et dernière avec des colonnes spécifiques.