Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark en utilisant DataFrame.
La classe de lignes dans Pyspark est utilisée pour créer une ligne pour le Pyspark DataFrame. Nous pouvons créer une ligne en utilisant la fonction Row ().
Ceci est disponible dans le pyspark.module SQL. Nous devons donc importer une ligne à partir de ce module.
Syntaxe:
Row (Column_Name = 'Value',… .)
Où,
- Column_name est la colonne du Pyspark DataFrame
- la valeur est la valeur de ligne pour une colonne particulière
Nous pouvons spécifier n'importe quel nombre de colonnes dans la classe Row.
Si nous voulons créer plusieurs lignes, alors nous devons spécifier la classe de ligne dans une liste séparée par un opérateur de virgule.
Syntaxe:
[Row (Column_name = 'Value',… .), Row (collumn_name = 'value',… .)
,…]
Pour créer Pyspark DataFrame à partir de cette ligne, nous passons simplement la liste des lignes à la méthode CreateDataFrame ().
Si nous voulons afficher le Pyspark DataFrame au format de ligne, nous devons utiliser la méthode Collect ().
Cette méthode est utilisée pour obtenir les données consécutives par ligne par ligne
Syntaxe:
Trame de données.collecter()
Où DataFrame est l'entrée pyspark dataframe.
Exemple :
Cet exemple créera 5 lignes à l'aide de la classe de ligne avec 6 colonnes et affichera le dataframe à l'aide de la méthode Collect ().
#IMPORT LE MODULE PYSPAPRK
Importer Pyspark
#import Sparkcession pour la création d'une session et d'une ligne
de Pyspark.SQL IMPORT SPARKSESSE, ROW
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
#Create Rows
row_data = [row (rollno = '001', name = 'sravan', âge = 23, hauteur = 5.79, poids = 67, adresse = 'guntur'),
Row (rollno = '002', name = 'ojaswi', âge = 16, hauteur = 3.79, poids = 34, adresse = 'hyd'),
Row (rollno = '003', name = 'gnanesh chowdary', âge = 7, hauteur = 2.79, poids = 17, adresse = 'patna'),
Row (rollno = '004', name = 'rohith', âge = 9, hauteur = 3.69, poids = 28, adresse = 'hyd'),
Row (rollno = '005', name = 'sridevi', âge = 37, hauteur = 5.59, poids = 54, adresse = 'hyd')]]
#Create le dataframe de ROW_DATA
df = spark_app.CreatedataFrame (ROW_DATA)
# Afficher le dataframe
# par rangées
df.collecter()
Sortir:
[Row (rollno = '001', name = 'sravan', âge = 23, hauteur = 5.79, poids = 67, adresse = 'guntur'),
Row (rollno = '002', name = 'ojaswi', âge = 16, hauteur = 3.79, poids = 34, adresse = 'hyd'),
Row (rollno = '003', name = 'gnanesh chowdary', âge = 7, hauteur = 2.79, poids = 17, adresse = 'patna'),
Row (rollno = '004', name = 'rohith', âge = 9, hauteur = 3.69, poids = 28, adresse = 'hyd'),
Row (rollno = '005', name = 'sridevi', âge = 37, hauteur = 5.59, poids = 54, adresse = 'hyd')]]
Nous pouvons également définir d'abord les colonnes, puis transmettre les valeurs aux lignes.
Cela se fait en utilisant le nom de la ligne. Nous définirons les colonnes avec le nom de la ligne et en utilisant cela, nous pouvons ajouter des valeurs à la ligne
Syntaxe:
Row_name = row ("Column_name1", Column_name2 ",… .,”Column_name n)
[ROW_NAME (Value1, Value2,…, Valuen),…, ROW_NAME (Value1, Value2,…, Valuen)]]
Exemple:
Dans cet exemple, nous allons ajouter 6 colonnes avec le nom de la ligne en tant qu'étudiants avec des noms comme «rollno», «nom», «âge», «hauteur», «poids», «adresse» et ajout de 5 valeurs à cette ligne des élèves.
#IMPORT LE MODULE PYSPAPRK
Importer Pyspark
#import Sparkcession pour la création d'une session et d'une ligne
de Pyspark.SQL IMPORT SPARKSESSE, ROW
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer une ligne avec 6 colonnes
étudiants = row ("rollno", "nom", "âge", "hauteur", "poids", "adresse")
#Create Valeurs pour les lignes
row_data = [étudiants ('001', 'sravan', 23,5.79,67, «guntur»),
étudiants («002», «ojaswi», 16,3.79,34, «hyd»),
étudiants («003», «Gnanesh Chowdary», 7,2.79,17, «Patna»),
étudiants («004», «Rohith», 9,3.69,28, «hyd»),
étudiants («005», «sridevi», 37,5.59,54, «hyd»)]
#Create le dataframe de ROW_DATA
df = spark_app.CreatedataFrame (ROW_DATA)
# Afficher le dataframe
# par rangées
df.collecter()
Sortir:
[Row (rollno = '001', name = 'sravan', âge = 23, hauteur = 5.79, poids = 67, adresse = 'guntur'),
Row (rollno = '002', name = 'ojaswi', âge = 16, hauteur = 3.79, poids = 34, adresse = 'hyd'),
Row (rollno = '003', name = 'gnanesh chowdary', âge = 7, hauteur = 2.79, poids = 17, adresse = 'patna'),
Row (rollno = '004', name = 'rohith', âge = 9, hauteur = 3.69, poids = 28, adresse = 'hyd'),
Row (rollno = '005', name = 'sridevi', âge = 37, hauteur = 5.59, poids = 54, adresse = 'hyd')]]
Créer une ligne imbriquée
Row à l'intérieur d'une rangée est connue sous le nom de rangée imbriquée. Nous pouvons créer la ligne imbriquée à l'intérieur de la ligne est similaire à la création de lignes normale
Syntaxe:
[Row (colonnen_name = row (colonnen_name = 'value',… .),… .),
Row (colonnen_name = row (column_name = 'value',… .),
…]
Exemple:
Dans cet exemple, nous créerons DataFrame similaire à ci-dessus, mais nous ajoutons une colonne nommée sujets à chaque ligne et ajoutant des valeurs Java et PHP à l'aide de la ligne imbriquée.
#IMPORT LE MODULE PYSPAPRK
Importer Pyspark
#import Sparkcession pour la création d'une session et d'une ligne
de Pyspark.SQL IMPORT SPARKSESSE, ROW
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
#Create Rows
row_data = [row (rollno = '001', name = 'sravan', âge = 23, hauteur = 5.79, poids = 67, adresse = 'guntur', sujets = row (sujet1 = 'java', sujet2 = 'php'))),
Row (rollno = '002', name = 'ojaswi', âge = 16, hauteur = 3.79, poids = 34, adresse = 'hyd', sujets = row (sujet1 = 'java', sujet2 = 'php'))),
Row (rollno = '003', name = 'gnanesh chowdary', âge = 7, hauteur = 2.79, poids = 17, adresse = 'patna', sujets = row (sujet1 = 'java', sujet2 = 'php'))),
Row (rollno = '004', name = 'rohith', âge = 9, hauteur = 3.69, poids = 28, adresse = 'hyd', sujets = row (sujet1 = 'java', sujet2 = 'php'))),
Row (rollno = '005', name = 'sridevi', âge = 37, hauteur = 5.59, poids = 54, adresse = 'hyd', sujets = row (sujet1 = 'java', sujet2 = 'php'))]]
#Create le dataframe de ROW_DATA
df = spark_app.CreatedataFrame (ROW_DATA)
# Afficher le dataframe
# par rangées
df.collecter()
Sortir:
[Row (rollno = '001', name = 'sravan', âge = 23, hauteur = 5.79, poids = 67, adresse = 'guntur', sujets = row (sujet1 = 'java', sujet2 = 'php'))),
Row (rollno = '002', name = 'ojaswi', âge = 16, hauteur = 3.79, poids = 34, adresse = 'hyd', sujets = row (sujet1 = 'java', sujet2 = 'php'))),
Row (rollno = '003', name = 'gnanesh chowdary', âge = 7, hauteur = 2.79, poids = 17, adresse = 'patna', sujets = row (sujet1 = 'java', sujet2 = 'php'))),
Row (rollno = '004', name = 'rohith', âge = 9, hauteur = 3.69, poids = 28, adresse = 'hyd', sujets = row (sujet1 = 'java', sujet2 = 'php'))),
Row (rollno = '005', name = 'sridevi', âge = 37, hauteur = 5.59, poids = 54, adresse = 'hyd', sujets = row (sujet1 = 'java', sujet2 = 'php'))]]
Conclusion:
Cet article a discuté de la classe de ligne et comment créer Pyspark DataFrame à l'aide de la classe Row. Enfin, nous avons discuté de la classe de lignes imbriqués.