Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark en utilisant DataFrame. Dans cet article, nous discuterons de plusieurs façons de créer Pyspark DataFrame.
Méthode 1: Utilisation du dictionnaire
Dictionary est une datastructure qui stockera les données dans la clé, valeur de valeur.
La clé agit comme la colonne et la valeur agissent comme une valeur / données de ligne dans le Pyspark DataFrame. Cela doit être passé à l'intérieur de la liste.
Structure:
['valeur clé]
Nous pouvons également fournir plusieurs dictionnaires.
Structure:
['key': valeur, 'key': valeur,… .,'valeur clé]
Exemple:
Ici, nous allons créer Pyspark DataFrame avec 5 lignes et 6 colonnes via le dictionnaire. Enfin, nous affichons la méthode DataFrame à l'aide de Show ().
# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#display le dataframe
df.montrer()
Sortir:
Méthode 2: Utilisation de la liste des tuples
Tuple est une structure de données qui stockera les données dans ().
Nous pouvons passer les lignes séparées par une virgule dans un tuple entouré d'une liste.
Structure:
[(valeur1, valeur2,.,valluen)]
Nous pouvons également fournir plusieurs tuples dans une liste.
Structure:
[(valeur1, valeur2,.,Valuen), (valeur1, valeur2,.,Valuen),…, (valeur1, valeur2,.,valluen)]
Nous devons fournir les noms de colonne via une liste tout en créant le DataFrame.
Syntaxe:
Column_Names = ['Column1', 'Column2',… .'colonne']
Spark_App.CreatedAtaFrame (list_of_tuple, colmn_names)
Exemple:
Ici, nous allons créer Pyspark DataFrame avec 5 lignes et 6 colonnes via le dictionnaire. Enfin, nous affichons la méthode DataFrame à l'aide de Show ().
# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [('001', 'sravan', 23,5.79,67, «guntur»),
('002', 'ojaswi', 16,3.79,34, «hyd»),
(«003», «Gnanesh Chowdary», 7,2.79,17, «Patna»),
('004', 'Rohith', 9,3.69,28, «hyd»),
(«005», «sridevi», 37,5.59,54, «hyd»)]
#assign les noms de colonne
Column_Names = [«RollNo», «Name», «Age», «Height», «Weight», «Address»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants, colonnes_name)
#display le dataframe
df.montrer()
Sortir:
Méthode 3: Utilisation du tuple des listes
La liste est une structure de données qui stockera les données dans [].
Nous pouvons passer les lignes séparées par des virgules dans une liste entourée d'un tuple.
Structure:
([Value1, valeur2,.,Valuen])
Nous pouvons également fournir plusieurs listes dans un tuple.
Structure:
([Value1, valeur2,.,Valuen], [Value1, Value2,.,Valuen],…, [Value1, Value2,.,Valuen])
Nous devons fournir les noms de colonne via une liste tout en créant le DataFrame.
Syntaxe:
Column_Names = ['Column1', 'Column2',… .'colonne']
Spark_App.CreatedAtaFrame (Tuple_Of_List, Column_Names)
Exemple:
Ici, nous allons créer Pyspark DataFrame avec 5 lignes et 6 colonnes via le dictionnaire. Enfin, nous affichons la méthode DataFrame à l'aide de Show ().
# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ([«001», «sravan», 23,5.79,67, «Guntur»],
['002', 'ojaswi', 16,3.79,34, «hyd»],
['003', 'Gnanesh Chowdary', 7,2.79,17, 'Patna'],
['004', 'Rohith', 9,3.69,28, «hyd»],
['005', 'sridevi', 37,5.59,54, «hyd»])
#assign les noms de colonne
Column_Names = [«RollNo», «Name», «Age», «Height», «Weight», «Address»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants, colonnes_name)
#display le dataframe
df.montrer()
Sortir:
Méthode 4: Utilisation de la liste imbriquée
La liste est une datastructure qui stockera les données dans [].
Ainsi, nous pouvons passer les lignes séparées par des virgules dans une liste entourée d'une liste.
Structure:
[[Value1, Value2,.,valluen]]
Nous pouvons également fournir plusieurs listes dans une liste.
Structure:
[[Value1, Value2,.,Valuen], [Value1, Value2,.,Valuen],…, [Value1, Value2,.,valluen]]
Nous devons fournir les noms de colonne via une liste tout en créant le DataFrame.
Syntaxe:
Column_Names = ['Column1', 'Column2',… .'colonne']
Spark_App.CreatedAtaFrame (Need_list, Column_Names)
Exemple:
Ici, nous allons créer Pyspark DataFrame avec 5 lignes et 6 colonnes via le dictionnaire. Enfin, nous affichons la méthode DataFrame à l'aide de Show ().
# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [['001', 'sravan', 23,5.79,67, «Guntur»],
['002', 'ojaswi', 16,3.79,34, «hyd»],
['003', 'Gnanesh Chowdary', 7,2.79,17, 'Patna'],
['004', 'Rohith', 9,3.69,28, «hyd»],
['005', 'sridevi', 37,5.59,54, «hyd»]]
#assign les noms de colonne
Column_Names = [«RollNo», «Name», «Age», «Height», «Weight», «Address»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants, colonnes_name)
#display le dataframe
df.montrer()
Sortir:
Méthode 5: Utilisation du tuple imbriqué
Structure:
((valeur1, valeur2,.,Valuen))
Nous pouvons également fournir plusieurs tuples dans un tuple.
Structure:
((valeur1, valeur2,.,Valuen), (valeur1, valeur2,.,Valuen),…, (valeur1, valeur2,.,Valuen))
Nous devons fournir les noms de colonne via une liste tout en créant le DataFrame.
Syntaxe:
Column_Names = ['Column1', 'Column2',… .'colonne']
Spark_App.CreatedAtaFrame (Need_tuple, Column_Names)
Exemple:
Ici, nous allons créer Pyspark DataFrame avec 5 lignes et 6 colonnes via le dictionnaire. Enfin, nous affichons la méthode DataFrame à l'aide de Show ().
# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = (('001', 'sravan', 23,5.79,67, «guntur»),
('002', 'ojaswi', 16,3.79,34, «hyd»),
(«003», «Gnanesh Chowdary», 7,2.79,17, «Patna»),
('004', 'Rohith', 9,3.69,28, «hyd»),
(«005», «sridevi», 37,5.59,54, «hyd»))
#assign les noms de colonne
Column_Names = [«RollNo», «Name», «Age», «Height», «Weight», «Address»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants, colonnes_name)
#display le dataframe
df.montrer()
Sortir:
Conclusion
Dans ce didacticiel, nous avons discuté de cinq méthodes pour créer des données Pyspark: liste des tuples, tuple de listes, tuple imbriqué, utilisation de la liste imbriquée et liste des colonnes pour fournir des noms de colonnes. Il n'est pas nécessaire de fournir la liste des noms de colonne lors de la création de Pyspark DataFrame à l'aide du dictionnaire.