Pyspark - Collectez

Jules Colin

Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark en utilisant DataFrame. Collect () Méthode dans Pyspark Affiche les données présentes dans DataFrame Row by Row.

Syntaxe:

Trame de données.collecter()

Exemple:

Dans cet exemple, nous créerons un Pyspark DataFrame avec 6 colonnes et 5 lignes et afficherons le DataFrame dans un format tabulaire à l'aide de la méthode Show ().

#IMPORT LE MODULE PYSPAPRK
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
# trame de données
df.montrer()

Sortir:

Exemple 2:

Affichons le dataframe à l'aide de la méthode collection ()

Sortir:

[Row (adresse = 'guntur', âge = 23, hauteur = 5.79, name = 'sravan', rollno = '001', poids = 67),
Ligne (adresse = 'hyd', âge = 16, hauteur = 3.79, name = 'ojaswi', rollno = '002', poids = 34),
Ligne (adresse = 'patna', âge = 7, hauteur = 2.79, name = 'gnanesh chowdary', rollno = '003', poids = 17),
Ligne (adresse = 'hyd', âge = 9, hauteur = 3.69, name = 'rohith', rollno = '004', poids = 28),
Ligne (adresse = 'hyd', âge = 37, hauteur = 5.59, name = 'sridevi', rollno = '005', poids = 54)]

Nous pouvons également utiliser pour Loop avec la méthode collection () pour itérer la ligne par ligne

Syntaxe:

Pour itérateur dans DataFrame.collecter():
Imprimer (itérateur)

Pour afficher des colonnes particulières, nous devons spécifier le nom de la colonne avec Iterator à l'aide de l'opérateur []

Syntaxe:

Pour itérateur dans DataFrame.collecter():
print (iterator ['Column1'], iterator ['Column2'],… .)

Exemple:

Cet exemple itérera plusieurs colonnes dans un dataframe avec la méthode Collect ().

Sortir:

sravan
ojaswi
Gnanesh Chowdary
rocher
sridevi
------------------------------------
Sravan 67
Ojaswi 34
Gnanesh Chowdary 17
Rohith 28
sridevi 54
------------------------------------
Ligne (adresse = 'guntur', âge = 23, hauteur = 5.79, name = 'sravan', rollno = '001', poids = 67)
Ligne (adresse = 'hyd', âge = 16, hauteur = 3.79, name = 'ojaswi', rollno = '002', poids = 34)
Ligne (adresse = 'patna', âge = 7, hauteur = 2.79, name = 'gnanesh chowdary', rollno = '003', poids = 17)
Ligne (adresse = 'hyd', âge = 9, hauteur = 3.69, name = 'rohith', rollno = '004', poids = 28)
Ligne (adresse = 'hyd', âge = 37, hauteur = 5.59, name = 'sridevi', rollno = '005', poids = 54)

Nous pouvons également obtenir la ligne particulière en utilisant la méthode collection () en utilisant un index.

Dans Pyspark DataFrame, l'indexation commence à partir de 0.

Syntaxe:

Trame de données.Collect () [row_index]

Exemple:

Dans cet exemple, nous collectons les premières, deuxième et cinquième rangées.

Sortir:

Ligne (adresse = 'guntur', âge = 23, hauteur = 5.79, name = 'sravan', rollno = '001', poids = 67)
Ligne (adresse = 'hyd', âge = 16, hauteur = 3.79, name = 'ojaswi', rollno = '002', poids = 34)
Ligne (adresse = 'hyd', âge = 37, hauteur = 5.59, name = 'sridevi', rollno = '005', poids = 54)

Nous pouvons également obtenir la colonne particulière dans une ligne en utilisant la méthode Collect () en utilisant un index.

Dans Pyspark DataFrame, l'indexation commence à partir de 0.

Syntaxe:

Trame de données.Collect () [row_index] [Column_index]

Exemple:

Dans cet exemple, nous allons obtenir des valeurs de la première ligne - première colonne, troisième ligne - première colonne

Sortir:

guntur
patna

Conclusion

Dans cet article, nous avons couvert l'utilisation de la méthode Collect () avec différents scénarios. Enfin, nous comprenons que la méthode collection () est utilisée pour obtenir la ligne de données par ligne dans le Pyspark DataFrame.

Python

Python Chmod

Le «OS.Chmod () ”La fonction du module OS est utilisée pour modifier la propriété du fichier Python ...

Lola Bonnet

Docker

Quel est le but d'un docker-compose.Fichier YML dans Docker?

Le but principal d'un «compose docker.Le fichier yml »doit simplifier le processus de déploiement et...

Lola Bonnet

Windows OS

Quelle est la différence entre Windows Top 10 Home et Pro

La version «Pro» est destinée aux utilisateurs professionnels et a plus d'outils administratifs, tan...

Julien Dumas