Convertir Pyspark Pandas DataFrame en différents formats

Convertir Pyspark Pandas DataFrame en différents formats
«Dans Python, Pyspark est un module Spark qui fournit un type de traitement similaire à Spark à l'aide de DataFrame, qui stockera les données données au format de ligne et de colonne.

Pyspark - Pandas DataFrame représente le Pandas DataFrame, mais il contient le Pyspark DataFrame en interne.

Les Pandas prennent en charge la structure des données DataFrame et les pandas sont importés du module Pyspark.

Avant cela, vous devez installer le module Pyspark."

Commande

pip install pyspark

Syntaxe à importer:

De Pyspark Import Pandas

Après cela, nous pouvons créer ou utiliser le DataFrame à partir du module Pandas.

Syntaxe pour créer Pandas DataFrame:

pyspark.pandas.Trame de données()

Nous pouvons passer un dictionnaire ou une liste de listes avec des valeurs.

Créons un Pandas DataFrame via Pyspark avec trois colonnes et cinq lignes.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('mark1': [90,56,78,54,67], 'mark2': [100,67,96,89,32], 'mark3': [91,92,98,97,87] )
imprimer (pyspark_pandas)

Sortir:

Maintenant, nous allons entrer dans notre tutoriel.

Nous verrons différents formats dans lesquels le Pyspark Pandas Create Created Pyspark est converti.

pyspark.pandas.Trame de données.to_html ()

Pyspark Pandas DataFrame est converti au format HTML tel que les noms de colonne sont placés sous Tag, et les valeurs de colonne sont placées sous étiqueter.

Syntaxe:

pyspark_pandas.to_html ()

Où pyspark_pandas est le pyspark pandas dataframe.

Exemple 1

Dans cet exemple, nous allons convertir le Pyspark Pandas DataFrame ci-dessus au format HTML.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('mark1': [90,56,78,54,67], 'mark2': [100,67,96,89,32], 'mark3': [91,92,98,97,87] )
#convert pyspark_pandas à html
imprimer (pyspark_pandas.to_html ())

Sortir:

Vous pouvez voir que les noms de colonne sont placés à l'intérieur Les balises et les valeurs sont placées à l'intérieur Mots clés.

pyspark.pandas.Trame de données.to_json ()

Pyspark Pandas DataFrame est converti au format JSON de telle sorte que les noms de colonne agiront comme des clés et des valeurs de colonne seront des valeurs.

Syntaxe:

pyspark_pandas.to_json ()

Où pyspark_pandas est le pyspark pandas dataframe.

Exemple: 2

Dans cet exemple, nous convertirons le Pyspark Pandas DataFrame ci-dessus au format JSON.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('mark1': [90,56,78,54,67], 'mark2': [100,67,96,89,32], 'mark3': [91,92,98,97,87] )
#convert pyspark_pandas à json
imprimer (pyspark_pandas.to_json ())

Sortir:

["Mark1": 90, "Mark2": 100, "Mark3": 91, "Mark1": 56, "Mark2": 67, "Mark3": 92, "Mark1": 78, "Mark2 ": 96," Mark3 ": 98, " Mark1 ": 54," Mark2 ": 89," Mark3 ": 97, " Mark1 ": 67," Mark2 ": 32," Mark3 ": 87 ]]

Vous pouvez voir que les noms de colonne sont des clés.

pyspark.pandas.Trame de données.to_numpy ()

Pyspark Pandas DataFrame est converti en format de tableau à l'aide de la méthode to_numpy ().

Syntaxe:

pyspark_pandas.to_numpy ()

Où pyspark_pandas est le pyspark pandas dataframe.

Exemple: 3

Dans cet exemple, nous convertirons le Pyspark Pandas DataFrame ci-dessus au format de tableau.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('mark1': [90,56,78,54,67], 'mark2': [100,67,96,89,32], 'mark3': [91,92,98,97,87] )
#convert en tableau Numpy
imprimer (pyspark_pandas.to_numpy ())

Sortir:

[[90 100 91]
[56 67 92]
[78 96 98]
[54 89 97]
[67 32 87]]

Vous pouvez voir que les valeurs sont stockées sous la forme d'un tableau 2D avec cinq lignes et trois colonnes.

pyspark.pandas.Trame de données.to_pandas ()

Pyspark Pandas DataFrame est converti en Pandas DataFrame à l'aide de la méthode TO_PANDAS ().

Syntaxe:

pyspark_pandas.to_pandas ()

Où pyspark_pandas est le pyspark pandas dataframe.

Exemple: 4

Dans cet exemple, nous allons convertir le Pyspark Pandas DataFrame ci-dessus en un Pandas DataFrame.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('mark1': [90,56,78,54,67], 'mark2': [100,67,96,89,32], 'mark3': [91,92,98,97,87] )
#convert en pandas
imprimer (pyspark_pandas.to_pandas ())

Sortir:

Mark1 Mark2 Mark3
0 90 100 91
1 56 67 92
2 78 96 98
3 54 89 97
4 67 32 87

Vous pouvez voir que les valeurs sont stockées sous la forme d'un Pandas Dataframe avec cinq lignes et trois colonnes.

pyspark.pandas.Trame de données.to_markdown ()

Pyspark Pandas DataFrame est converti en Markdown à l'aide de la méthode TO_Markdown ().

Syntaxe:

pyspark_pandas.to_markdown ()

Où pyspark_pandas est le pyspark pandas dataframe.

Exemple: 5

Dans cet exemple, nous allons convertir le Pyspark Pandas DataFrame ci-dessus au format Markdown.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('mark1': [90,56,78,54,67], 'mark2': [100,67,96,89,32], 'mark3': [91,92,98,97,87] )
#Display au format Markdown
imprimer (pyspark_pandas.to_markdown ())

Sortir:

Vous pouvez voir que le Pyspark Pandas DataFrame est converti au format Markdown.

pyspark.pandas.Trame de données.to_dict ()

Pyspark Pandas DataFrame est converti en un dictionnaire en utilisant la méthode TO_DICT ().Les noms de colonne seront des clés.

Syntaxe:

pyspark_pandas.to_dict ()

Où pyspark_pandas est le pyspark pandas dataframe.

Exemple: 6

Dans cet exemple, nous allons convertir le Pyspark Pandas DataFrame ci-dessus en un dictionnaire en utilisant la méthode TO_DICT ().

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('mark1': [90,56,78,54,67], 'mark2': [100,67,96,89,32], 'mark3': [91,92,98,97,87] )
#convert en dictionnaire
imprimer (pyspark_pandas.to_dict ())

Sortir:

'mark1': 0: 90, 1: 56, 2: 78, 3: 54, 4: 67, 'mark2': 0: 100, 1: 67, 2: 96, 3: 89, 4: 32, 'mark3': 0: 91, 1: 92, 2: 98, 3: 97, 4: 87

Vous pouvez voir que le Pyspark Pandas DataFrame est converti en un dictionnaire avec des clés comme noms de colonne.

pyspark.pandas.Trame de données.to_records ()

Pyspark Pandas DataFrame est converti en un enregistrement en utilisant la méthode TO_Records (). Ici, pour chaque rangée de l'enregistrement, un identifiant est placé qui commence à partir de 1.

Syntaxe:

pyspark_pandas.to_records ()

Où pyspark_pandas est le pyspark pandas dataframe.

Exemple: 7

Dans cet exemple, nous allons convertir le Pyspark Pandas DataFrame ci-dessus en un enregistrement en utilisant la méthode TO_RECORDS ().

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('mark1': [90,56,78,54,67], 'mark2': [100,67,96,89,32], 'mark3': [91,92,98,97,87] )
#convert aux enregistrements
imprimer (pyspark_pandas.to_records ())

Sortir:

[(0, 90, 100, 91) (1, 56, 67, 92) (2, 78, 96, 98) (3, 54, 89, 97)
(4, 67, 32, 87)]

pyspark.pandas.Trame de données.to_latex ()

Pyspark Pandas DataFrame est converti en un enregistrement en utilisant la méthode TO_LATEX ().

Syntaxe:

pyspark_pandas.to_latex ()

Où pyspark_pandas est le pyspark pandas dataframe.

Exemple: 8

Dans cet exemple, nous allons convertir le Pyspark Pandas DataFrame ci-dessus au format latex.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('mark1': [90,56,78,54,67], 'mark2': [100,67,96,89,32], 'mark3': [91,92,98,97,87] )
#convert en latex
imprimer (pyspark_pandas.to_latex ())

Sortir:

Nous pouvons voir que le pyspark pandas dataframe est converti au format latex.

pyspark.pandas.Trame de données.to_spark ()

Pyspark Pandas DataFrame est converti en une étincelle DataFrame à l'aide de la méthode TO_Spark (). Il utilise la méthode show () pour afficher le dataframe au format tabulaire.

Syntaxe:

pyspark_pandas.to_spark ()

Où pyspark_pandas est le pyspark pandas dataframe.

Exemple: 9

Dans cet exemple, nous convertirons le Pyspark Pandas DataFrame ci-dessus en une étincelle DataFrame.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('mark1': [90,56,78,54,67], 'mark2': [100,67,96,89,32], 'mark3': [91,92,98,97,87] )
#convert à Spark
pyspark_pandas.to_spark ().montrer()

Sortir:

Nous pouvons voir que le pyspark pandas dataframe est converti en un dataframe Spark.

pyspark.pandas.Trame de données.to_string ()

Pyspark Pandas DataFrame est converti en une chaîne en utilisant la méthode TO_String (). Il s'affiche dans un format tabulaire.

Syntaxe:

pyspark_pandas.to_string ()

Où pyspark_pandas est le pyspark pandas dataframe.

Exemple: 10

Dans cet exemple, nous convertirons le Pyspark Pandas DataFrame ci-dessus en une chaîne

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('mark1': [90,56,78,54,67], 'mark2': [100,67,96,89,32], 'mark3': [91,92,98,97,87] )
#convert au format de chaîne
imprimer (pyspark_pandas.to_string ())

Sortir:

Mark1 Mark2 Mark3
0 90 100 91
1 56 67 92
2 78 96 98
3 54 89 97
4 67 32 87

Nous pouvons voir que le pyspark pandas dataframe est converti en une chaîne avec un format tabulaire.

Conclusion

Dans ce tutoriel, nous avons vu les différents formats qui convertissent le Pyspark Pandas DataFrame.

to_html () convertit le pyspark pandas dataframe en format html. Si vous souhaitez le convertir en un tableau Numpy, vous pouvez choisir la méthode TO_NUMPY (). Si vous souhaitez le convertir en un Pandas DataFrame, vous pouvez choisir la méthode TO_PANDAS ().

TO_LATEX () Formats Le Pyspark Pandas DataFrame en latex, TO_MARKDOWN Formats Le Pyspark Pandas DataFrame dans Markdown. Si vous voulez que la colonne soit une clé, vous pouvez préférer à_dict () et à_json ().