Retour Top et dernière lignes de Pyspark Pandas DataFrame

Retour Top et dernière lignes de Pyspark Pandas DataFrame
«Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark à l'aide de DataFrame, qui stockera les données données au format de ligne et de colonne.

Pyspark - Pandas DataFrame représente le Pandas DataFrame, mais il contient le Pyspark DataFrame en interne.

Les Pandas prennent en charge la structure des données DataFrame et les pandas sont importés du module Pyspark.

Avant cela, vous devez installer le module Pyspark."

Commande

pip install pyspark

Syntaxe à importer:

De Pyspark Import Pandas

Après cela, nous pouvons créer ou utiliser le DataFrame à partir du module Pandas.

Syntaxe pour créer Pandas DataFrame:

pyspark.pandas.Trame de données()

Nous pouvons passer un dictionnaire ou une liste de listes avec des valeurs.

Créons un Pandas DataFrame via Pyspark qui a quatre colonnes et cinq lignes.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'],
«Mark1»: [90,56,78,54,67], «Mark2»: [100,67,96,89,32], «Mark3»: [91,92,98,97,87]))
imprimer (pyspark_pandas)

Sortir:

Maintenant, nous allons entrer dans notre tutoriel.

Il existe plusieurs façons de retourner les lignes supérieures et dernières du Pyspark Pandas DataFrame.

Voyons-les un par un.

pyspark.pandas.Trame de données.diriger

head () retournera les lignes supérieures en haut du Pyspark Pandas DataFrame. Il prend n comme paramètre qui spécifie le nombre de lignes affichées du haut. Par défaut, il renverra les 5 premières lignes.

Syntaxe:

pyspark_pandas.tête (n)

Où pyspark_pandas est le pyspark pandas dataframe.

Paramètre:

n Spécifie une valeur entière qui affiche le nombre de lignes en haut du Pyspark Pandas DataFrame.

Nous pouvons également utiliser la fonction Head () pour afficher une colonne spécifique.

Syntaxe:

pyspark_pandas.colonne.tête (n)

Exemple 1

Dans cet exemple, nous retournerons les lignes des 2 et 4 supérieures dans la colonne Mark1.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [[90,56,78,54,67], 'Mark2': [[ 100,67,96,89,32], «Mark3»: [91,92,98,97,87])
#display les 2 meilleures lignes dans la colonne Mark1
imprimer (pyspark_pandas.Mark1.tête (2))
imprimer()
#Display Top 4 lignes dans la colonne Mark1
imprimer (pyspark_pandas.Mark1.tête (4))

Sortir:

0 90
1 56
Nom: Mark1, Dtype: Int64
0 90
1 56
2 78
3 54
Nom: Mark1, Dtype: Int64

Nous pouvons voir que les lignes des 2 et 4 premières ont été sélectionnées dans la colonne Marks1.

Exemple 2

Dans cet exemple, nous retournerons les 2 et 4 premières lignes dans la colonne Student_lastName.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [[90,56,78,54,67], 'Mark2': [[ 100,67,96,89,32], «Mark3»: [91,92,98,97,87])
#display les 2 meilleures lignes dans la colonne Student_lastName
imprimer (pyspark_pandas.Student_lastName.tête (2))
imprimer()
#Display Top 4 lignes dans la colonne Student_lastName
imprimer (pyspark_pandas.Student_lastName.tête (4))

Sortir:

0 Manasa
1 Trisha
Nom: Student_lastName, DTYPE: Objet
0 Manasa
1 Trisha
2 Lehara
3 kapila
Nom: Student_lastName, DTYPE: Objet

Nous pouvons voir que les lignes top 2 et 4 ont été sélectionnées parmi les Student_lastName colonne.

Exemple 3

Dans cet exemple, nous retournerons les 2 premières lignes de l'ensemble des données.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [[90,56,78,54,67], 'Mark2': [[ 100,67,96,89,32], «Mark3»: [91,92,98,97,87])
#display les 2 meilleures lignes
imprimer (pyspark_pandas.tête (2))
imprimer()
#Display Top 4 lignes
imprimer (pyspark_pandas.tête (4))

Sortir:

Student_lastName Mark1 Mark2 Mark3
0 Manasa 90 100 91
1 Trisha 56 67 92
Student_lastName Mark1 Mark2 Mark3
0 Manasa 90 100 91
1 Trisha 56 67 92
2 Lehara 78 96 98
3 Kapila 54 89 97

Nous pouvons voir que l'intégralité de Dataframe est retournée avec les 2 premières lignes.

pyspark.pandas.Trame de données.queue

Tail () renverra les lignes du dernier du Pyspark Pandas DataFrame. Il prend n comme paramètre qui spécifie le nombre de lignes affichées à partir du dernier.

Syntaxe:

pyspark_pandas.queue (n)

Où pyspark_pandas est le pyspark pandas dataframe.

Paramètre:

n Spécifie une valeur entière qui affiche le nombre de lignes du dernier du Pyspark Pandas DataFrame. Par défaut, il renverra les 5 dernières lignes.

Nous pouvons également utiliser la fonction tail () pour afficher des colonnes spécifiques.

Syntaxe:

pyspark_pandas.colonne.queue (n)

Exemple 1

Dans cet exemple, nous retournerons les 2 et 4 dernières lignes dans la colonne Mark1.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [[90,56,78,54,67], 'Mark2': [[ 100,67,96,89,32], «Mark3»: [91,92,98,97,87])
#display 2 dernières lignes dans la colonne Mark1
imprimer (pyspark_pandas.Mark1.queue (2))
imprimer()
#Display Last 4 lignes dans la colonne Mark1
imprimer (pyspark_pandas.Mark1.queue (4))

Sortir:

3 54
4 67
Nom: Mark1, Dtype: Int64
1 56
2 78
3 54
4 67
Nom: Mark1, Dtype: Int64

On peut voir que les 2 dernières lignes ont été sélectionnées dans la colonne Marks1.

Exemple 2

Dans cet exemple, nous retournerons les 2 et 4 dernières lignes dans la colonne Student_lastName.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [[90,56,78,54,67], 'Mark2': [[ 100,67,96,89,32], «Mark3»: [91,92,98,97,87])
#display 2 dernières lignes dans la colonne Student_lastName
imprimer (pyspark_pandas.Student_lastName.queue (2))
imprimer()
#display 4 dernières lignes dans la colonne Student_lastName
imprimer (pyspark_pandas.Student_lastName.queue (4))

Sortir:

3 kapila
4 Hyna
Nom: Student_lastName, DTYPE: Objet
1 Trisha
2 Lehara
3 kapila
4 Hyna
Nom: Student_lastName, DTYPE: Objet

Nous pouvons voir que les 2 dernières lignes ont été sélectionnées parmi les Student_lastName colonne.

Exemple 3

Dans cet exemple, nous retournerons les 2 dernières lignes de l'ensemble de DataFrame.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [[90,56,78,54,67], 'Mark2': [[ 100,67,96,89,32], «Mark3»: [91,92,98,97,87])
#display 2 dernières lignes
imprimer (pyspark_pandas.queue (2))
imprimer()
#display 4 dernières lignes
imprimer (pyspark_pandas.queue (4))

Sortir:

Student_lastName Mark1 Mark2 Mark3
3 Kapila 54 89 97
4 Hyna 67 32 87
Student_lastName Mark1 Mark2 Mark3
1 Trisha 56 67 92
2 Lehara 78 96 98
3 Kapila 54 89 97
4 Hyna 67 32 87

Nous pouvons voir que l'intégralité de DataFrame est retournée avec les 2 dernières lignes.

Conclusion

Nous avons vu comment afficher les lignes supérieure et dernière des fonctions Pyspark Pandas Dataframe à l'aide de la tête () et de la tail (). Par défaut, ils retournent 5 lignes.Les fonctions head () et tail () sont également utilisées pour obtenir les lignes supérieure et dernière avec des colonnes spécifiques.