Pyspark - Pandas DataFrame représente le Pandas DataFrame, mais il contient le Pyspark DataFrame en interne.
Pandas prend en charge la structure des données DataFrame et Pandas est importé du module Pyspark.
Avant cela, vous devez installer le module Pyspark."
Commande
pip install pysparkSyntaxe à importer
De Pyspark Import PandasAprès cela, nous pouvons créer ou utiliser le DataFrame à partir du module Pandas.
Syntaxe pour créer Pandas DataFrame
pyspark.pandas.Trame de données()Nous pouvons passer un dictionnaire ou une liste de listes avec des valeurs.
Créons un Pandas DataFrame via Pyspark qui a quatre colonnes et cinq lignes.
#Import Pandas du module PysparkSortir
Maintenant, nous allons entrer dans notre tutoriel.
Voyons-les un par un.
Pyspark - Pandas DataFrame: Shape ()
pyspark.pandas.Trame de données.forme()Shape () dans Pyspark Pandas DataFrame est utilisé pour renvoyer le nombre de lignes et le nombre de colonnes dans un tuple.
La première valeur dans le tuple représente le nombre de lignes, et la deuxième valeur représente le nombre de colonnes.
Syntaxe
pyspark_pandas.formeOù pyspark_pandas est le pyspark pandas dataframe.
Si vous souhaitez retourner uniquement le nombre total de lignes ou de colonnes, vous pouvez l'obtenir en utilisant la position d'index.
Syntaxe
Renter le nombre total de lignes
Retour Nombre total de colonnes
pyspark_pandas.forme [1]Exemple
Dans cet exemple, nous verrons combien de lignes et de colonnes qui existent dans le pyspark pandas ci-dessus.
Sortir
Total des lignes et colonnes: (5, 4)Nous pouvons voir que les lignes et les colonnes totales ont été retournées.
Pyspark - Pandas DataFrame: Axes ()
pyspark.pandas.Trame de données.Axes ()Axes () dans le Pyspark Pandas DataFrame est utilisé pour renvoyer les noms de lignes et de colonnes dans une liste.
La première valeur de la liste représente les noms de lignes, et la deuxième valeur représente les noms de colonne.
Syntaxe
pyspark_pandas.hachesOù pyspark_pandas est le pyspark pandas dataframe.
Si vous souhaitez retourner uniquement les lignes ou les colonnes, vous pouvez l'obtenir en utilisant la position d'index.
Syntaxe
Rendre les noms des lignes
pyspark_pandas.Axes [0]Noms de colonne de retour
pyspark_pandas.Axes [1]Exemple
Dans cet exemple, nous verrons les lignes et les colonnes qui existent dans le pyspark pandas ci-dessus.
Sortir
[Int64Index ([0, 1, 2, 3, 4], dtype = "int64"), index (['student_lastname', 'mark1', 'mark2', 'mark3'], dtype = "objet")]]Nous pouvons voir que les noms de lignes et de colonnes ont été retournés.
Pyspark - Pandas DataFrame: ndim ()
pyspark.pandas.Trame de données.ndim ()
ndim () dans le pyspark pandas dataframe est utilisé pour retourner les dimensions totales. Ici, le Pyspark Pandas DataFrame contient deux dimensions - ligne et colonne. Donc il reviendra 2.
Syntaxe
pyspark_pandas.ndimOù pyspark_pandas est le pyspark pandas dataframe.
Exemple
Dans cet exemple, nous obtiendrons les dimensions totales du Pyspark Pandas DataFrame.
Sortir
2Pyspark - Pandas DataFrame: DTYPES ()
pyspark.pandas.Trame de données.dtypes ()
DTYPES () dans Pyspark Pandas DataFrame est utilisé pour renvoyer les types de données pour toutes les colonnes
Syntaxe
pyspark_pandas.dtypesOù pyspark_pandas est le pyspark pandas dataframe.
Exemple
Dans cet exemple, nous obtiendrons les types de données du Pyspark Pandas DataFrame.
Sortir
Objet Student_lastNameIl est également possible d'obtenir le type de données à partir d'une seule colonne.
Syntaxe
Pyspark_pandas.colonne.dtypesOù la colonne est le nom de la colonne
Exemple
Dans cet exemple, nous obtiendrons les types de données de Student_lastName et de la colonne Mark1.
Sortir
objetConclusion
Dans ce didacticiel Pyspark Pandas Dataframe, nous avons vu différentes méthodes pour obtenir les informations de DataFrame.