Pyspark - Union & Unionall

Ethan Guillot

Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark en utilisant DataFrame. Nous pouvons ajouter les lignes / données de la deuxième données de données au premier DataFrame en utilisant deux méthodes: Union () et Unionall (). Les deux méthodes sont les mêmes. La méthode Unionall () est obsolète dans le 2.0 version de Pyspark, et il est remplacé par la méthode Union (). Avant d'apprendre à connaître ces méthodes, créons deux pyspark dataframes.

Exemple 1:
Dans l'exemple suivant, nous allons créer le Pyspark DataFrame avec 5 lignes et 6 colonnes et afficher à l'aide de la méthode Show ():

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants1 = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants1)
# Afficher DataFrame
df.montrer()

Sortir:

Exemple 2:
Dans l'exemple suivant, nous allons créer le Pyspark DataFrame avec 3 lignes et 6 colonnes et afficher à l'aide de la méthode Show ():

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants2 = ['rollno': '056', 'name': 'Vinay', 'Age': 23, 'Height': 5.79, «poids»: 67, «adresse»: «Tamilnadu»,
'rollno': '045', 'name': 'bhanu', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
?.79, «poids»: 17, «adresse»: «Delhi»]
# Créer le DataFrame
df2 = spark_app.CreatedataFrame (Students2)
# Affichez la seconde Dataframe
df2.montrer()

Sortir:

Pyspark - Union () Fonction

La fonction Union () ajoutera des lignes d'un ou plusieurs dataframes au premier dataframe. Nous verrons comment ajouter les lignes de la deuxième Dataframe au premier DataFrame.

Syntaxe:

first_dataframe.Union (second_dataframe)

Où:

First_DataFrame est la première entrée DataFrame.
second_dataframe est la deuxième entrée dataframe.

Exemple:

Dans cet exemple, nous appliquons la fonction Union () pour ajouter le deuxième DataFrame au premier

Trame de données. Enfin, nous affichons le DataFrame à l'aide de la méthode Show ():

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants1 = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants1)
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants2 = ['rollno': '056', 'name': 'Vinay', 'Age': 23, 'Height': 5.79, «poids»: 67, «adresse»: «Tamilnadu»,
'rollno': '045', 'name': 'bhanu', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
?.79, «poids»: 17, «adresse»: «Delhi»]
# Créer le DataFrame
df2 = spark_app.CreatedataFrame (Students2)
# interpréter Union ()
df.Union (DF2).montrer()

Sortir:

Fonction Pyspark - Unionall ()

La fonction Unionall () ajoutera des lignes d'un ou plusieurs données de données à la première dataframe. Nous verrons comment ajouter les lignes de la deuxième Dataframe au premier DataFrame.

Syntaxe:

first_dataframe.Unionall (second_dataframe)

Où:

First_DataFrame est la première entrée DataFrame.
second_dataframe est la deuxième entrée dataframe.

Exemple:

Dans cet exemple, nous appliquons la fonction Unionall () pour ajouter le deuxième DataFrame au premier DataFrame. Enfin, nous affichons le dataframe à l'aide de la méthode Show ().

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants1 = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants1)
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants2 = ['rollno': '056', 'name': 'Vinay', 'Age': 23, 'Height': 5.79, «poids»: 67, «adresse»: «Tamilnadu»,
'rollno': '045', 'name': 'bhanu', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
?.79, «poids»: 17, «adresse»: «Delhi»]
# Créer le DataFrame
df2 = spark_app.CreatedataFrame (Students2)
# interpréter Unionall ()
df.Unionall (DF2).montrer()

Sortir:

Conclusion

Dans cet article, nous pouvons ajouter deux ou plusieurs dataframes en utilisant les méthodes Union () et Unionall (). La fonctionnalité des deux méthodes est la même et discutée avec des exemples fournis. Nous espérons que vous avez trouvé cet article utile. Découvrez plus d'articles sur les conseils pour les conseils et les tutoriels.

Python

TSPLOT DE SEA

À Python, le «Seaborn.La méthode lineplot () »est utilisée pour tracer plusieurs lignes dans un seul...

Zoe Martinez

Python

Python Chmod

Le «OS.Chmod () ”La fonction du module OS est utilisée pour modifier la propriété du fichier Python ...

Lola Bonnet

Docker

Quel est le but d'un docker-compose.Fichier YML dans Docker?

Le but principal d'un «compose docker.Le fichier yml »doit simplifier le processus de déploiement et...

Lola Bonnet