Pyspark - pandas dataframe add_prefix et add_suffix

Pyspark - pandas dataframe add_prefix et add_suffix

«Dans Python, Pyspark est un module Spark qui fournit un type de traitement similaire à Spark à l'aide de DataFrame, qui stockera les données données au format de ligne et de colonne.

Pyspark - Pandas DataFrame représente le Pandas DataFrame, mais il contient le Pyspark DataFrame en interne.

Pandas prend en charge la structure des données DataFrame et Pandas est importé du module Pyspark.

Avant cela, vous devez installer le module Pyspark."

Commande

1
pip install pyspark

Syntaxe à importer:

1
De Pyspark Import Pandas

Après cela, nous pouvons créer ou utiliser le DataFrame à partir du module Pandas.

Syntaxe pour créer Pandas DataFrame:

1
pyspark.pandas.Trame de données()

Nous pouvons passer un dictionnaire ou une liste de listes avec des valeurs.

Créons un Pandas DataFrame via Pyspark avec quatre colonnes et cinq lignes.

1
2
3
4
5
6
7
8
9
dix
11
12
13
#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [[90,56,78,54,67], 'Mark2': [[ 100,67,96,89,32], «Mark3»: [91,92,98,97,87])
imprimer (pyspark_pandas)

Sortir:

Maintenant, nous allons entrer dans notre tutoriel.

Il est possible d'ajouter des préfixes et des suffixes à une colonne particulière ou à toutes les colonnes à l'aide des méthodes add_prefix () et add_suffix (). Discutons-les un par un.

1
pyspark.pandas.Trame de données.add_prefix ()

add_prefix () est utilisé pour ajouter une chaîne de préfixe à chaque colonne au début du pyspark pandas dataframe. Il est également possible d'ajouter un préfixe à une seule colonne en spécifiant le nom de la colonne. Dans ce scénario, il sera ajouté aux étiquettes de rangée.

Syntaxe:

Pour entier DataFrame - pyspark_pandas.add_prefix ('string')

Pour une colonne particulière - pyspark_pandas.colonne.add_prefix ('string')

Où, pyspark_pandas est le pyspark pandas dataframe.

Paramètre:

Une chaîne est un préfixe ajouté à la colonne au début.

Exemple 1

Dans cet exemple, nous ajoutons le préfixe - "Linux_Hint" à toutes les colonnes ci-dessus pour créer le Pyspark Pandas DataFrame.

1
2
3
4
5
6
7
8
9
dix
11
12
13
14
15
#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [[90,56,78,54,67], 'Mark2': [[ 100,67,96,89,32], «Mark3»: [91,92,98,97,87])
#add le préfixe - 'Linux_Hint' à l'ensemble des données
imprimer (pyspark_pandas.add_prefix ('Linux_Hint'))

Sortir:

Nous pouvons voir que le préfixe est ajouté à toutes les colonnes.

Exemple 2

Ajouter le préfixe aux valeurs de la colonne Mark1.

1
2
3
4
5
6
7
8
9
dix
11
12
13
14
15
#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [[90,56,78,54,67], 'Mark2': [[ 100,67,96,89,32], «Mark3»: [91,92,98,97,87])
#add le préfixe - 'Linux_Hint' aux valeurs de la colonne Mark1
imprimer (pyspark_pandas.Mark1.add_prefix ('Linux_Hint'))

Sortir:

1
2
3
4
5
6
7
8
9
dix
11
Linux_Hint0 90
Linux_Hint1 56
Linux_Hint2 78
Linux_Hint3 54
Linux_Hint4 67
Nom: Mark1, Dtype: Int64

On peut voir que le préfixe est ajouté à toutes les valeurs de la colonne Mark1.

1
pyspark.pandas.Trame de données.add_suffix ()

add_suffix () est utilisé pour ajouter une chaîne de suffixe à chaque colonne à la fin du pyspark pandas dataframe. Il est également possible d'ajouter un suffixe à une seule colonne en spécifiant le nom de la colonne. Dans ce scénario, il sera ajouté aux étiquettes de rangée.

Syntaxe:

Pour entier DataFrame - pyspark_pandas.add_suffix ('string')

Pour une colonne particulière - pyspark_pandas.colonne.add_suffix ('string')

Où, pyspark_pandas est le pyspark pandas dataframe.

Paramètre:

Une chaîne est un suffixe ajouté à la colonne au début.

Exemple 1

Dans cet exemple, nous ajoutons le suffixe - "Linux_Hint" à toutes les colonnes ci-dessus pour créer le Pyspark Pandas DataFrame.

1
2
3
4
5
6
7
8
9
dix
11
12
13
14
15
#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [[90,56,78,54,67], 'Mark2': [[ 100,67,96,89,32], «Mark3»: [91,92,98,97,87])
#Add le suffixe - 'Linux_Hint' à l'ensemble des données
imprimer (pyspark_pandas.add_suffix ('Linux_Hint'))

Sortir:

Nous pouvons voir que le suffixe est ajouté à toutes les colonnes.

Exemple 2

Ajouter le suffixe aux valeurs de la colonne Mark1.

1
2
3
4
5
6
7
8
9
dix
11
12
13
14
15
#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [[90,56,78,54,67], 'Mark2': [[ 100,67,96,89,32], «Mark3»: [91,92,98,97,87])
#add le suffixe - 'Linux_Hint' aux valeurs de la colonne Mark1
imprimer (pyspark_pandas.Mark1.add_suffix ('Linux_Hint'))

Sortir:

1
2
3
4
5
6
7
8
9
dix
11
0Linux_Hint 90
1Linux_Hint 56
2Linux_Hint 78
3Linux_Hint 54
4Linux_Hint 67
Nom: Mark1, Dtype: Int64

On peut voir que le suffixe est ajouté à toutes les valeurs de la colonne Mark1.

Conclusion

Dans ce didacticiel Pyspark Pandas, nous avons vu comment ajouter un préfixe à l'aide de add_prefix () et de suffixe en utilisant add_suffix () au pyspark pandas dataframe. Il sera ajouté aux noms de colonne lorsque nous spécifions l'intégralité de DataFrame. Si nous appliquons les méthodes ci-dessus à une colonne particulière, le préfixe / suffixe sera ajouté aux positions de ligne.