Pyspark Introduction

Célia Girard

Les données augmentent de jour en jour. Nous avons besoin d'une énorme quantité de mémoire pour stocker et traiter ces données. Cela devrait être efficace et facile à gérer. La technologie des mégadonnées est donc entrée en scène en fournissant une étincelle.

Spark est un puissant outil de traitement des données utilisé pour stocker et traiter les données efficacement et efficacement. Il a été introduit par l'équipe Apache et est également connu sous le nom d'Apache Spark.

Nous pouvons relier les données dans un format tabulaire. Ainsi, la structure de données utilisée est DataFrame. Quoi qu'il en soit, Spark prendra en charge les langages de programmation Java, Scala et Python. Nous utiliserons Spark in Python Programming Language à partir de maintenant.

Nous pouvons l'appeler comme Pyspark. Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire à l'aide de DataFrame.

Installation

Mais nous avons seulement besoin d'installer Pyspark dans notre système. Pour installer n'importe quel module, nous devons utiliser la commande PIP dans Python. Et la syntaxe est la suivante.

Syntaxe:

pip install pyspark

Avant d'utiliser ce pyspark, nous devons importer ce module dans notre organisation, et nos données nécessiteront une application Spark. Alors importons ce module et créons une application.

Nous pouvons créer une application à l'aide de Sparkcession en important cette classe depuis le Pyspark.module SQL.

Cela créera une session pour notre application.

Maintenant, créez l'application Spark à partir de cette session. Nous pouvons créer une application Spark à l'aide de GetorCreate ()

Syntaxe:

Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()

Il est temps de créer une excellente structure de données connue sous le nom de DataFrame qui stocke les données données au format de ligne et de colonne.

Dans Pyspark, nous pouvons créer un dataframe à partir de l'application Spark avec la méthode CreateDataFrame ()

Syntaxe:

Spark_App.CreatedataFrame (Input_data, colonnes)

Où input_data peut-être un dictionnaire ou une liste pour créer un dataframe à partir de ces données, et si l'entrée_data est une liste de dictionnaires, les colonnes ne sont pas nécessaires; S'il s'agit d'une liste imbriquée, nous devons fournir les noms de colonne.

Créons le pyspark dataframe

Code:

#IMPORT LE MODULE PYSPAPRK
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
# trame de données
df.montrer()

Sortir

Dans le code ci-dessus, nous avons créé le dictionnaire avec 5 lignes et 6 colonnes et passé ce dictionnaire à la méthode CreateDataFrame () pour générer le dataframe. Enfin, nous affichons le dataframe avec la méthode show (). Cette méthode affichera le dataframe dans un format tabulaire.

Affichons les colonnes dans Pyspark DataFrame.

Nous pouvons obtenir les noms de colonnes dans un format de liste à l'aide de la méthode des colonnes.

Syntaxe:

trame de données.Colonnes

Exemple 2:

Sortir:

['Address', 'Age', 'Height', 'Name', 'Rollno', 'Weight']

Conclusion

Dans cet article, nous avons discuté de la façon de créer Pyspark DataFrame avec l'installation et comment nous pouvons obtenir les colonnes dans le DataFrame. Et nous avons utilisé la méthode Show () pour afficher le dataframe au format tabulaire.

Python

Python Pas tous les arguments convertis lors du formatage des chaînes

Cette erreur peut être corrigée en corrigeant la syntaxe de l'opérateur%, en utilisant la fonction f...

Gabriel Bernard

Python

TSPLOT DE SEA

À Python, le «Seaborn.La méthode lineplot () »est utilisée pour tracer plusieurs lignes dans un seul...

Zoe Martinez

Python

Python Chmod

Le «OS.Chmod () ”La fonction du module OS est utilisée pour modifier la propriété du fichier Python ...

Lola Bonnet