Pyspark - Classe de lignes

Nathan Blanc

Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark en utilisant DataFrame.

La classe de lignes dans Pyspark est utilisée pour créer une ligne pour le Pyspark DataFrame. Nous pouvons créer une ligne en utilisant la fonction Row ().

Ceci est disponible dans le pyspark.module SQL. Nous devons donc importer une ligne à partir de ce module.

Syntaxe:

Row (Column_Name = 'Value',… .)

Où,

Column_name est la colonne du Pyspark DataFrame
la valeur est la valeur de ligne pour une colonne particulière

Nous pouvons spécifier n'importe quel nombre de colonnes dans la classe Row.

Si nous voulons créer plusieurs lignes, alors nous devons spécifier la classe de ligne dans une liste séparée par un opérateur de virgule.

Syntaxe:

[Row (Column_name = 'Value',… .), Row (collumn_name = 'value',… .)
,…]

Pour créer Pyspark DataFrame à partir de cette ligne, nous passons simplement la liste des lignes à la méthode CreateDataFrame ().

Si nous voulons afficher le Pyspark DataFrame au format de ligne, nous devons utiliser la méthode Collect ().

Cette méthode est utilisée pour obtenir les données consécutives par ligne par ligne

Syntaxe:

Trame de données.collecter()

Où DataFrame est l'entrée pyspark dataframe.

Exemple :

Cet exemple créera 5 lignes à l'aide de la classe de ligne avec 6 colonnes et affichera le dataframe à l'aide de la méthode Collect ().

#IMPORT LE MODULE PYSPAPRK
Importer Pyspark
#import Sparkcession pour la création d'une session et d'une ligne
de Pyspark.SQL IMPORT SPARKSESSE, ROW
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
#Create Rows
row_data = [row (rollno = '001', name = 'sravan', âge = 23, hauteur = 5.79, poids = 67, adresse = 'guntur'),
Row (rollno = '002', name = 'ojaswi', âge = 16, hauteur = 3.79, poids = 34, adresse = 'hyd'),
Row (rollno = '003', name = 'gnanesh chowdary', âge = 7, hauteur = 2.79, poids = 17, adresse = 'patna'),
Row (rollno = '004', name = 'rohith', âge = 9, hauteur = 3.69, poids = 28, adresse = 'hyd'),
Row (rollno = '005', name = 'sridevi', âge = 37, hauteur = 5.59, poids = 54, adresse = 'hyd')]]
#Create le dataframe de ROW_DATA
df = spark_app.CreatedataFrame (ROW_DATA)
# Afficher le dataframe
# par rangées
df.collecter()

Sortir:

[Row (rollno = '001', name = 'sravan', âge = 23, hauteur = 5.79, poids = 67, adresse = 'guntur'),
Row (rollno = '002', name = 'ojaswi', âge = 16, hauteur = 3.79, poids = 34, adresse = 'hyd'),
Row (rollno = '003', name = 'gnanesh chowdary', âge = 7, hauteur = 2.79, poids = 17, adresse = 'patna'),
Row (rollno = '004', name = 'rohith', âge = 9, hauteur = 3.69, poids = 28, adresse = 'hyd'),
Row (rollno = '005', name = 'sridevi', âge = 37, hauteur = 5.59, poids = 54, adresse = 'hyd')]]

Nous pouvons également définir d'abord les colonnes, puis transmettre les valeurs aux lignes.

Cela se fait en utilisant le nom de la ligne. Nous définirons les colonnes avec le nom de la ligne et en utilisant cela, nous pouvons ajouter des valeurs à la ligne

Syntaxe:

Row_name = row ("Column_name1", Column_name2 ",… .,”Column_name n)
[ROW_NAME (Value1, Value2,…, Valuen),…, ROW_NAME (Value1, Value2,…, Valuen)]]

Exemple:

Dans cet exemple, nous allons ajouter 6 colonnes avec le nom de la ligne en tant qu'étudiants avec des noms comme «rollno», «nom», «âge», «hauteur», «poids», «adresse» et ajout de 5 valeurs à cette ligne des élèves.

#IMPORT LE MODULE PYSPAPRK
Importer Pyspark
#import Sparkcession pour la création d'une session et d'une ligne
de Pyspark.SQL IMPORT SPARKSESSE, ROW
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer une ligne avec 6 colonnes
étudiants = row ("rollno", "nom", "âge", "hauteur", "poids", "adresse")
#Create Valeurs pour les lignes
row_data = [étudiants ('001', 'sravan', 23,5.79,67, «guntur»),
étudiants («002», «ojaswi», 16,3.79,34, «hyd»),
étudiants («003», «Gnanesh Chowdary», 7,2.79,17, «Patna»),
étudiants («004», «Rohith», 9,3.69,28, «hyd»),
étudiants («005», «sridevi», 37,5.59,54, «hyd»)]
#Create le dataframe de ROW_DATA
df = spark_app.CreatedataFrame (ROW_DATA)
# Afficher le dataframe
# par rangées
df.collecter()

Sortir:

Créer une ligne imbriquée

Row à l'intérieur d'une rangée est connue sous le nom de rangée imbriquée. Nous pouvons créer la ligne imbriquée à l'intérieur de la ligne est similaire à la création de lignes normale

Syntaxe:

[Row (colonnen_name = row (colonnen_name = 'value',… .),… .),
Row (colonnen_name = row (column_name = 'value',… .),
…]

Exemple:

Dans cet exemple, nous créerons DataFrame similaire à ci-dessus, mais nous ajoutons une colonne nommée sujets à chaque ligne et ajoutant des valeurs Java et PHP à l'aide de la ligne imbriquée.

#IMPORT LE MODULE PYSPAPRK
Importer Pyspark
#import Sparkcession pour la création d'une session et d'une ligne
de Pyspark.SQL IMPORT SPARKSESSE, ROW
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
#Create Rows
row_data = [row (rollno = '001', name = 'sravan', âge = 23, hauteur = 5.79, poids = 67, adresse = 'guntur', sujets = row (sujet1 = 'java', sujet2 = 'php'))),
Row (rollno = '002', name = 'ojaswi', âge = 16, hauteur = 3.79, poids = 34, adresse = 'hyd', sujets = row (sujet1 = 'java', sujet2 = 'php'))),
Row (rollno = '003', name = 'gnanesh chowdary', âge = 7, hauteur = 2.79, poids = 17, adresse = 'patna', sujets = row (sujet1 = 'java', sujet2 = 'php'))),
Row (rollno = '004', name = 'rohith', âge = 9, hauteur = 3.69, poids = 28, adresse = 'hyd', sujets = row (sujet1 = 'java', sujet2 = 'php'))),
Row (rollno = '005', name = 'sridevi', âge = 37, hauteur = 5.59, poids = 54, adresse = 'hyd', sujets = row (sujet1 = 'java', sujet2 = 'php'))]]
#Create le dataframe de ROW_DATA
df = spark_app.CreatedataFrame (ROW_DATA)
# Afficher le dataframe
# par rangées
df.collecter()

Sortir:

[Row (rollno = '001', name = 'sravan', âge = 23, hauteur = 5.79, poids = 67, adresse = 'guntur', sujets = row (sujet1 = 'java', sujet2 = 'php'))),
Row (rollno = '002', name = 'ojaswi', âge = 16, hauteur = 3.79, poids = 34, adresse = 'hyd', sujets = row (sujet1 = 'java', sujet2 = 'php'))),
Row (rollno = '003', name = 'gnanesh chowdary', âge = 7, hauteur = 2.79, poids = 17, adresse = 'patna', sujets = row (sujet1 = 'java', sujet2 = 'php'))),
Row (rollno = '004', name = 'rohith', âge = 9, hauteur = 3.69, poids = 28, adresse = 'hyd', sujets = row (sujet1 = 'java', sujet2 = 'php'))),
Row (rollno = '005', name = 'sridevi', âge = 37, hauteur = 5.59, poids = 54, adresse = 'hyd', sujets = row (sujet1 = 'java', sujet2 = 'php'))]]

Conclusion:

Cet article a discuté de la classe de ligne et comment créer Pyspark DataFrame à l'aide de la classe Row. Enfin, nous avons discuté de la classe de lignes imbriqués.

Base de données Oracle

Oracle Fusion est-il considéré comme mieux que SAP?

Oracle Fusion (ERP basé sur le cloud) a une interface conviviale, tandis que SAP (Cloud et ERP sur s...

Sarah Roux

Docker

Comment les volumes sont-ils définis dans Docker Compose Yaml?

Les volumes sont définis à l'aide de la touche «Volumes» dans Docker Compose YAML Fichier. Les utili...

Jules Colin

golang

Quelles sont les structures à Golang

À Golang, une structure est un type de données composite qui se compose de champs zéro ou plus nommé...

Pauline Giraud