Spark est un puissant outil de traitement des données utilisé pour stocker et traiter les données efficacement et efficacement. Il a été introduit par l'équipe Apache et est également connu sous le nom d'Apache Spark.
Nous pouvons relier les données dans un format tabulaire. Ainsi, la structure de données utilisée est DataFrame. Quoi qu'il en soit, Spark prendra en charge les langages de programmation Java, Scala et Python. Nous utiliserons Spark in Python Programming Language à partir de maintenant.
Nous pouvons l'appeler comme Pyspark. Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire à l'aide de DataFrame.
Installation
Mais nous avons seulement besoin d'installer Pyspark dans notre système. Pour installer n'importe quel module, nous devons utiliser la commande PIP dans Python. Et la syntaxe est la suivante.
Syntaxe:
pip install pysparkAvant d'utiliser ce pyspark, nous devons importer ce module dans notre organisation, et nos données nécessiteront une application Spark. Alors importons ce module et créons une application.
Nous pouvons créer une application à l'aide de Sparkcession en important cette classe depuis le Pyspark.module SQL.
Cela créera une session pour notre application.
Maintenant, créez l'application Spark à partir de cette session. Nous pouvons créer une application Spark à l'aide de GetorCreate ()
Syntaxe:
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()Il est temps de créer une excellente structure de données connue sous le nom de DataFrame qui stocke les données données au format de ligne et de colonne.
Dans Pyspark, nous pouvons créer un dataframe à partir de l'application Spark avec la méthode CreateDataFrame ()
Syntaxe:
Spark_App.CreatedataFrame (Input_data, colonnes)Où input_data peut-être un dictionnaire ou une liste pour créer un dataframe à partir de ces données, et si l'entrée_data est une liste de dictionnaires, les colonnes ne sont pas nécessaires; S'il s'agit d'une liste imbriquée, nous devons fournir les noms de colonne.
Créons le pyspark dataframe
Code:
#IMPORT LE MODULE PYSPAPRKSortir
Dans le code ci-dessus, nous avons créé le dictionnaire avec 5 lignes et 6 colonnes et passé ce dictionnaire à la méthode CreateDataFrame () pour générer le dataframe. Enfin, nous affichons le dataframe avec la méthode show (). Cette méthode affichera le dataframe dans un format tabulaire.
Affichons les colonnes dans Pyspark DataFrame.
Nous pouvons obtenir les noms de colonnes dans un format de liste à l'aide de la méthode des colonnes.
Syntaxe:
trame de données.ColonnesExemple 2:
#IMPORT LE MODULE PYSPAPRKSortir:
['Address', 'Age', 'Height', 'Name', 'Rollno', 'Weight']Conclusion
Dans cet article, nous avons discuté de la façon de créer Pyspark DataFrame avec l'installation et comment nous pouvons obtenir les colonnes dans le DataFrame. Et nous avons utilisé la méthode Show () pour afficher le dataframe au format tabulaire.