«Dans Python, Pyspark est un module Spark qui fournit un type de traitement similaire à Spark à l'aide de DataFrame, qui stockera les données données au format de ligne et de colonne.
Pyspark - Pandas DataFrame représente le Pandas DataFrame, mais il contient le Pyspark DataFrame en interne.
Pandas prend en charge la structure des données DataFrame et Pandas est importé du module Pyspark.
Avant cela, vous devez installer le module Pyspark."
Commande
1 | pip install pyspark |
Syntaxe à importer:
1 | De Pyspark Import Pandas |
Après cela, nous pouvons créer ou utiliser le DataFrame à partir du module Pandas.
Syntaxe pour créer Pandas DataFrame:
1 | pyspark.pandas.Trame de données() |
Nous pouvons passer un dictionnaire ou une liste de listes avec des valeurs.
Créons un Pandas DataFrame via Pyspark avec quatre colonnes et cinq lignes.
1 2 3 4 5 6 7 8 9 dix 11 12 13 | #Import Pandas du module Pyspark |
Sortir:
Maintenant, nous allons entrer dans notre tutoriel.
Il est possible d'ajouter des préfixes et des suffixes à une colonne particulière ou à toutes les colonnes à l'aide des méthodes add_prefix () et add_suffix (). Discutons-les un par un.
1 | pyspark.pandas.Trame de données.add_prefix () |
add_prefix () est utilisé pour ajouter une chaîne de préfixe à chaque colonne au début du pyspark pandas dataframe. Il est également possible d'ajouter un préfixe à une seule colonne en spécifiant le nom de la colonne. Dans ce scénario, il sera ajouté aux étiquettes de rangée.
Syntaxe:
Pour entier DataFrame - pyspark_pandas.add_prefix ('string')
Pour une colonne particulière - pyspark_pandas.colonne.add_prefix ('string')
Où, pyspark_pandas est le pyspark pandas dataframe.
Paramètre:
Une chaîne est un préfixe ajouté à la colonne au début.
Exemple 1
Dans cet exemple, nous ajoutons le préfixe - "Linux_Hint" à toutes les colonnes ci-dessus pour créer le Pyspark Pandas DataFrame.
1 2 3 4 5 6 7 8 9 dix 11 12 13 14 15 | #Import Pandas du module Pyspark |
Sortir:
Nous pouvons voir que le préfixe est ajouté à toutes les colonnes.
Exemple 2
Ajouter le préfixe aux valeurs de la colonne Mark1.
1 2 3 4 5 6 7 8 9 dix 11 12 13 14 15 | #Import Pandas du module Pyspark |
Sortir:
1 2 3 4 5 6 7 8 9 dix 11 | Linux_Hint0 90 |
On peut voir que le préfixe est ajouté à toutes les valeurs de la colonne Mark1.
1 | pyspark.pandas.Trame de données.add_suffix () |
add_suffix () est utilisé pour ajouter une chaîne de suffixe à chaque colonne à la fin du pyspark pandas dataframe. Il est également possible d'ajouter un suffixe à une seule colonne en spécifiant le nom de la colonne. Dans ce scénario, il sera ajouté aux étiquettes de rangée.
Syntaxe:
Pour entier DataFrame - pyspark_pandas.add_suffix ('string')
Pour une colonne particulière - pyspark_pandas.colonne.add_suffix ('string')
Où, pyspark_pandas est le pyspark pandas dataframe.
Paramètre:
Une chaîne est un suffixe ajouté à la colonne au début.
Exemple 1
Dans cet exemple, nous ajoutons le suffixe - "Linux_Hint" à toutes les colonnes ci-dessus pour créer le Pyspark Pandas DataFrame.
1 2 3 4 5 6 7 8 9 dix 11 12 13 14 15 | #Import Pandas du module Pyspark |
Sortir:
Nous pouvons voir que le suffixe est ajouté à toutes les colonnes.
Exemple 2
Ajouter le suffixe aux valeurs de la colonne Mark1.
1 2 3 4 5 6 7 8 9 dix 11 12 13 14 15 | #Import Pandas du module Pyspark |
Sortir:
1 2 3 4 5 6 7 8 9 dix 11 | 0Linux_Hint 90 |
On peut voir que le suffixe est ajouté à toutes les valeurs de la colonne Mark1.
Conclusion
Dans ce didacticiel Pyspark Pandas, nous avons vu comment ajouter un préfixe à l'aide de add_prefix () et de suffixe en utilisant add_suffix () au pyspark pandas dataframe. Il sera ajouté aux noms de colonne lorsque nous spécifions l'intégralité de DataFrame. Si nous appliquons les méthodes ci-dessus à une colonne particulière, le préfixe / suffixe sera ajouté aux positions de ligne.