Pyspark - Pandas DataFrame représente le Pandas DataFrame, mais il contient le Pyspark DataFrame en interne.
Les Pandas prennent en charge la structure des données DataFrame et les pandas sont importés du module Pyspark.
Avant cela, vous devez installer le module Pyspark."
Commande
pip install pysparkSyntaxe à importer:
De Pyspark Import PandasAprès cela, nous pouvons créer ou utiliser le DataFrame à partir du module Pandas.
Syntaxe pour créer Pandas DataFrame:
pyspark.pandas.Trame de données()Nous pouvons passer un dictionnaire ou une liste de listes avec des valeurs.
Créons un Pandas DataFrame via Pyspark avec trois colonnes et cinq lignes.
#Import Pandas du module PysparkSortir:
Maintenant, nous allons entrer dans notre tutoriel.
Nous verrons différents formats dans lesquels le Pyspark Pandas Create Created Pyspark est converti.
pyspark.pandas.Trame de données.to_html ()
Pyspark Pandas DataFrame est converti au format HTML tel que les noms de colonne sont placés sous
Syntaxe:
pyspark_pandas.to_html ()Où pyspark_pandas est le pyspark pandas dataframe.
Exemple 1
Dans cet exemple, nous allons convertir le Pyspark Pandas DataFrame ci-dessus au format HTML.
#Import Pandas du module PysparkSortir:
Vous pouvez voir que les noms de colonne sont placés à l'intérieur
pyspark.pandas.Trame de données.to_json ()
Pyspark Pandas DataFrame est converti au format JSON de telle sorte que les noms de colonne agiront comme des clés et des valeurs de colonne seront des valeurs.
Syntaxe:
pyspark_pandas.to_json ()Où pyspark_pandas est le pyspark pandas dataframe.
Exemple: 2
Dans cet exemple, nous convertirons le Pyspark Pandas DataFrame ci-dessus au format JSON.
#Import Pandas du module PysparkSortir:
["Mark1": 90, "Mark2": 100, "Mark3": 91, "Mark1": 56, "Mark2": 67, "Mark3": 92, "Mark1": 78, "Mark2 ": 96," Mark3 ": 98, " Mark1 ": 54," Mark2 ": 89," Mark3 ": 97, " Mark1 ": 67," Mark2 ": 32," Mark3 ": 87 ]]Vous pouvez voir que les noms de colonne sont des clés.
pyspark.pandas.Trame de données.to_numpy ()
Pyspark Pandas DataFrame est converti en format de tableau à l'aide de la méthode to_numpy ().
Syntaxe:
pyspark_pandas.to_numpy ()Où pyspark_pandas est le pyspark pandas dataframe.
Exemple: 3
Dans cet exemple, nous convertirons le Pyspark Pandas DataFrame ci-dessus au format de tableau.
#Import Pandas du module PysparkSortir:
[[90 100 91]Vous pouvez voir que les valeurs sont stockées sous la forme d'un tableau 2D avec cinq lignes et trois colonnes.
pyspark.pandas.Trame de données.to_pandas ()
Pyspark Pandas DataFrame est converti en Pandas DataFrame à l'aide de la méthode TO_PANDAS ().
Syntaxe:
pyspark_pandas.to_pandas ()Où pyspark_pandas est le pyspark pandas dataframe.
Exemple: 4
Dans cet exemple, nous allons convertir le Pyspark Pandas DataFrame ci-dessus en un Pandas DataFrame.
#Import Pandas du module PysparkSortir:
Mark1 Mark2 Mark3Vous pouvez voir que les valeurs sont stockées sous la forme d'un Pandas Dataframe avec cinq lignes et trois colonnes.
Pyspark Pandas DataFrame est converti en Markdown à l'aide de la méthode TO_Markdown ().
Syntaxe:
pyspark_pandas.to_markdown ()Où pyspark_pandas est le pyspark pandas dataframe.
Exemple: 5
Dans cet exemple, nous allons convertir le Pyspark Pandas DataFrame ci-dessus au format Markdown.
#Import Pandas du module PysparkSortir:
Vous pouvez voir que le Pyspark Pandas DataFrame est converti au format Markdown.
Pyspark Pandas DataFrame est converti en un dictionnaire en utilisant la méthode TO_DICT ().Les noms de colonne seront des clés.
Syntaxe:
pyspark_pandas.to_dict ()Où pyspark_pandas est le pyspark pandas dataframe.
Exemple: 6
Dans cet exemple, nous allons convertir le Pyspark Pandas DataFrame ci-dessus en un dictionnaire en utilisant la méthode TO_DICT ().
#Import Pandas du module PysparkSortir:
'mark1': 0: 90, 1: 56, 2: 78, 3: 54, 4: 67, 'mark2': 0: 100, 1: 67, 2: 96, 3: 89, 4: 32, 'mark3': 0: 91, 1: 92, 2: 98, 3: 97, 4: 87Vous pouvez voir que le Pyspark Pandas DataFrame est converti en un dictionnaire avec des clés comme noms de colonne.
pyspark.pandas.Trame de données.to_records ()
Pyspark Pandas DataFrame est converti en un enregistrement en utilisant la méthode TO_Records (). Ici, pour chaque rangée de l'enregistrement, un identifiant est placé qui commence à partir de 1.
Syntaxe:
pyspark_pandas.to_records ()Où pyspark_pandas est le pyspark pandas dataframe.
Exemple: 7
Dans cet exemple, nous allons convertir le Pyspark Pandas DataFrame ci-dessus en un enregistrement en utilisant la méthode TO_RECORDS ().
#Import Pandas du module PysparkSortir:
[(0, 90, 100, 91) (1, 56, 67, 92) (2, 78, 96, 98) (3, 54, 89, 97)pyspark.pandas.Trame de données.to_latex ()
Pyspark Pandas DataFrame est converti en un enregistrement en utilisant la méthode TO_LATEX ().
Syntaxe:
pyspark_pandas.to_latex ()Où pyspark_pandas est le pyspark pandas dataframe.
Exemple: 8
Dans cet exemple, nous allons convertir le Pyspark Pandas DataFrame ci-dessus au format latex.
#Import Pandas du module PysparkSortir:
Nous pouvons voir que le pyspark pandas dataframe est converti au format latex.
pyspark.pandas.Trame de données.to_spark ()
Pyspark Pandas DataFrame est converti en une étincelle DataFrame à l'aide de la méthode TO_Spark (). Il utilise la méthode show () pour afficher le dataframe au format tabulaire.
Syntaxe:
pyspark_pandas.to_spark ()Où pyspark_pandas est le pyspark pandas dataframe.
Exemple: 9
Dans cet exemple, nous convertirons le Pyspark Pandas DataFrame ci-dessus en une étincelle DataFrame.
#Import Pandas du module PysparkSortir:
Nous pouvons voir que le pyspark pandas dataframe est converti en un dataframe Spark.
pyspark.pandas.Trame de données.to_string ()
Pyspark Pandas DataFrame est converti en une chaîne en utilisant la méthode TO_String (). Il s'affiche dans un format tabulaire.
Syntaxe:
pyspark_pandas.to_string ()Où pyspark_pandas est le pyspark pandas dataframe.
Exemple: 10
Dans cet exemple, nous convertirons le Pyspark Pandas DataFrame ci-dessus en une chaîne
#Import Pandas du module PysparkSortir:
Mark1 Mark2 Mark3Nous pouvons voir que le pyspark pandas dataframe est converti en une chaîne avec un format tabulaire.
Conclusion
Dans ce tutoriel, nous avons vu les différents formats qui convertissent le Pyspark Pandas DataFrame.
to_html () convertit le pyspark pandas dataframe en format html. Si vous souhaitez le convertir en un tableau Numpy, vous pouvez choisir la méthode TO_NUMPY (). Si vous souhaitez le convertir en un Pandas DataFrame, vous pouvez choisir la méthode TO_PANDAS ().
TO_LATEX () Formats Le Pyspark Pandas DataFrame en latex, TO_MARKDOWN Formats Le Pyspark Pandas DataFrame dans Markdown. Si vous voulez que la colonne soit une clé, vous pouvez préférer à_dict () et à_json ().