Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark en utilisant DataFrame. Il fournit les plusieurs méthodes pour retourner les lignes supérieures du Pyspark DataFrame. Nous fournirons des exemples pour les 5 façons d'afficher les lignes supérieures à Pyspark:
- Pyspark - show ()
- Pyspark - Collect ()
- Pyspark - Take ()
- Pyspark - First ()
- Pyspark - Head ()
Pyspark - show ()
Il est utilisé pour afficher les lignes supérieures ou l'ensemble des données dans un format tabulaire.
Syntaxe:
trame de données.Show (n, vertical, tronqué)
Où, DataFrame est l'entrée Pyspark DataFrame.
Paramètres:
- n est le premier paramètre facultatif qui représente la valeur entière pour obtenir les lignes supérieures dans le dataframe et n représente le nombre de lignes supérieures à afficher. Par défaut, il affichera toutes les lignes à partir du dataframe
- Le paramètre vertical prend des valeurs booléennes qui sont utilisées pour afficher le dataframe dans le paramètre vertical lorsqu'il est défini sur true. et afficher le dataframe au format horizontal lorsqu'il est défini sur faux. Par défaut, il s'affichera en format horizontal
- Truncate est utilisé pour obtenir le nombre de caractères de chaque valeur dans le dataframe. Il faudra un entier comme certains caractères pour être affiché. Par défaut, il affichera tous les caractères.
Exemple 1:
Dans cet exemple, nous allons créer un Pyspark DataFrame avec 5 lignes et 6 colonnes et allons afficher le DataFrame en utilisant la méthode Show () sans aucun paramètre. Ainsi, cela se traduit par Tabular DataFrame en affichant toutes les valeurs dans le DataFrame
# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16,
'Hauteur': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7,
'Hauteur': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9,
'Hauteur': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37,
'Hauteur': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
# trame de données
df.montrer()
Sortir:
Exemple 2:
Dans cet exemple, nous allons créer un Pyspark DataFrame avec 5 lignes et 6 colonnes et allons afficher le DataFrame en utilisant la méthode Show () avec N paramètre. Nous définissons la valeur n sur 4 pour afficher les 4 premières lignes de la dataframe. Ainsi, cela se traduit par un DataFrame tabulaire en affichant 4 valeurs dans le dataframe.
#IMPORT LE MODULE PYSPAPRK
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16,
'Hauteur': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7,
'Hauteur': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9,
'Hauteur': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37,
'Hauteur': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
# Obtenez les 4 meilleures lignes dans le dataframe
df.show (4)
Sortir:
Pyspark - Collect ()
Collect () Méthode dans Pyspark est utilisée pour afficher les données présentes dans DataFrame Row par ligne en haut.
Syntaxe:
trame de données.collecter()
Exemple:
Affichons l'intégralité de la méthode DataFrame avec Collect ()
# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16,
'Hauteur': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7,
'Hauteur': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9,
'Hauteur': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37,
'Hauteur': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
# Afficher
df.collecter()
Sortir:
[Row (adresse = 'guntur', âge = 23, hauteur = 5.79, name = 'sravan', rollno = '001', poids = 67),
Ligne (adresse = 'hyd', âge = 16, hauteur = 3.79, name = 'ojaswi', rollno = '002', poids = 34),
Ligne (adresse = 'patna', âge = 7, hauteur = 2.79, name = 'gnanesh chowdary', rollno = '003', poids = 17),
Ligne (adresse = 'hyd', âge = 9, hauteur = 3.69, name = 'rohith', rollno = '004', poids = 28),
Ligne (adresse = 'hyd', âge = 37, hauteur = 5.59, name = 'sridevi', rollno = '005', poids = 54)]
Pyspark - Take ()
Il est utilisé pour afficher les lignes supérieures ou l'ensemble des données.
Syntaxe:
trame de données.pris)
Où, DataFrame est l'entrée Pyspark DataFrame.
Paramètres:
n est le paramètre requis qui représente la valeur entière pour obtenir les lignes supérieures dans le dataframe.
Exemple 1:
Dans cet exemple, nous allons créer un pyspark dataframe avec 5 lignes et 6 colonnes et allons afficher 3 lignes à partir du dataframe en utilisant la méthode TAKE (). Donc, cela résulte des 3 premières lignes de la dataframe.
# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16,
'Hauteur': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7,
'Hauteur': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9,
'Hauteur': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37,
'Hauteur': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
# Afficher les 3 premières lignes de la dataframe
df.prendre (3)
Sortir:
[Row (adresse = 'guntur', âge = 23, hauteur = 5.79, name = 'sravan', rollno = '001', poids = 67),
Ligne (adresse = 'hyd', âge = 16, hauteur = 3.79, name = 'ojaswi', rollno = '002', poids = 34),
Ligne (adresse = 'patna', âge = 7, hauteur = 2.79, name = 'gnanesh chowdary', rollno = '003', poids = 17)]
Exemple 2:
Dans cet exemple, nous allons créer un pyspark dataframe avec 5 lignes et 6 colonnes et allons afficher 3 lignes à partir du dataframe en utilisant la méthode TAKE (). Ainsi, cela résulte de la première ligne du Top à partir du dataframe.
# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16,
'Hauteur': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7,
'Hauteur': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9,
'Hauteur': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37,
'Hauteur': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
# Affichez la première ligne de la dataframe
df.prendre (1)
Sortir:
[Row (adresse = 'guntur', âge = 23, hauteur = 5.79, name = 'sravan', rollno = '001', poids = 67)]
Pyspark - First ()
Il est utilisé pour afficher les lignes supérieures ou l'ensemble des données.
Syntaxe:
trame de données.d'abord()
Où, DataFrame est l'entrée Pyspark DataFrame.
Paramètres:
- Il ne prendra aucun paramètre.
Exemple:
Dans cet exemple, nous allons créer un Pyspark DataFrame avec 5 lignes et 6 colonnes et aller afficher 1 ligne à partir du dataframe en utilisant la méthode First (). Donc, cela ne résulte que la première rangée.
# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16,
'Hauteur': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7,
'Hauteur': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9,
'Hauteur': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37,
'Hauteur': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
# Affichez la première ligne de la dataframe
df.Premièrement (1)
Sortir:
[Row (adresse = 'guntur', âge = 23, hauteur = 5.79, name = 'sravan', rollno = '001', poids = 67)]
Pyspark - Head ()
Il est utilisé pour afficher les lignes supérieures ou l'ensemble des données.
Syntaxe:
trame de données.tête (n)
Où, DataFrame est l'entrée Pyspark DataFrame.
Paramètres:
n est le paramètre facultatif qui représente la valeur entière pour obtenir les lignes supérieures dans le dataframe et n représente le nombre de lignes supérieures à afficher. Par défaut, il affichera la première ligne à partir du dataframe, si n n'est pas spécifié.
Exemple 1:
Dans cet exemple, nous allons créer un pyspark dataframe avec 5 lignes et 6 colonnes et aller afficher 3 lignes à partir du dataframe en utilisant la méthode Head (). Donc, cela en résulte les 3 premières lignes du dataframe.
# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16,
'Hauteur': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7,
'Hauteur': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9,
'Hauteur': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37,
'Hauteur': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
# Afficher les 3 premières lignes de la dataframe
df.tête (3)
Sortir:
[Row (adresse = 'guntur', âge = 23, hauteur = 5.79, name = 'sravan', rollno = '001', poids = 67),
Ligne (adresse = 'hyd', âge = 16, hauteur = 3.79, name = 'ojaswi', rollno = '002', poids = 34),
Ligne (adresse = 'patna', âge = 7, hauteur = 2.79, name = 'gnanesh chowdary', rollno = '003', poids = 17)]
Exemple 2:
Dans cet exemple, nous allons créer un pyspark dataframe avec 5 lignes et 6 colonnes et aller afficher 1 ligne à partir du dataframe en utilisant la méthode Head (). Donc, cela résulte au top 1 du Top à partir du dataframe.
# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16,
'Hauteur': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7,
'Hauteur': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9,
'Hauteur': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37,
'Hauteur': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
# Affichez la première ligne de la dataframe
df.tête (1)
Sortir:
[Row (adresse = 'guntur', âge = 23, hauteur = 5.79, name = 'sravan', rollno = '001', poids = 67)]
Conclusion
Dans ce didacticiel, nous avons discuté de la façon d'obtenir les meilleures lignes de Pyspark DataFrame à l'aide de Show (), Collect (). Take (), Head () et First () Méthodes. Nous avons remarqué que la méthode Show () renverra les lignes supérieures dans un format tabulaire et les méthodes restantes renvoient la ligne par ligne.