Pyspark - Pandas DataFrame Forme, Axes, NDIM et DTYPES

Pyspark - Pandas DataFrame Forme, Axes, NDIM et DTYPES
«Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark à l'aide de DataFrame, qui stockera les données données au format de ligne et de colonne.

Pyspark - Pandas DataFrame représente le Pandas DataFrame, mais il contient le Pyspark DataFrame en interne.

Pandas prend en charge la structure des données DataFrame et Pandas est importé du module Pyspark.

Avant cela, vous devez installer le module Pyspark."

Commande

pip install pyspark

Syntaxe à importer

De Pyspark Import Pandas

Après cela, nous pouvons créer ou utiliser le DataFrame à partir du module Pandas.

Syntaxe pour créer Pandas DataFrame

pyspark.pandas.Trame de données()

Nous pouvons passer un dictionnaire ou une liste de listes avec des valeurs.

Créons un Pandas DataFrame via Pyspark qui a quatre colonnes et cinq lignes.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [[90,78,90,54,67], 'Mark2': [[ 100,67,96,89,77], «Mark3»: [91,92,98,97,87])
#afficher
imprimer (pyspark_pandas)

Sortir

Maintenant, nous allons entrer dans notre tutoriel.

Voyons-les un par un.

Pyspark - Pandas DataFrame: Shape ()

pyspark.pandas.Trame de données.forme()

Shape () dans Pyspark Pandas DataFrame est utilisé pour renvoyer le nombre de lignes et le nombre de colonnes dans un tuple.

La première valeur dans le tuple représente le nombre de lignes, et la deuxième valeur représente le nombre de colonnes.

Syntaxe

pyspark_pandas.forme

Où pyspark_pandas est le pyspark pandas dataframe.

Si vous souhaitez retourner uniquement le nombre total de lignes ou de colonnes, vous pouvez l'obtenir en utilisant la position d'index.

Syntaxe
Renter le nombre total de lignes

pyspark_pandas.forme [0]

Retour Nombre total de colonnes

pyspark_pandas.forme [1]

Exemple
Dans cet exemple, nous verrons combien de lignes et de colonnes qui existent dans le pyspark pandas ci-dessus.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [[90,78,90,54,67], 'Mark2': [[ 100,67,96,89,77], «Mark3»: [91,92,98,97,87])
#get la forme
Imprimer ("Total des lignes et colonnes:", Pyspark_pandas.forme)
#get uniquement le nombre total de lignes
Print ("Total Rows:", Pyspark_pandas.forme [0])
#get uniquement le nombre total de colonnes
Print ("Total Colonnes:", Pyspark_pandas.forme [1])

Sortir

Total des lignes et colonnes: (5, 4)
Total des lignes: 5
Colonnes totales: 4

Nous pouvons voir que les lignes et les colonnes totales ont été retournées.

Pyspark - Pandas DataFrame: Axes ()

pyspark.pandas.Trame de données.Axes ()

Axes () dans le Pyspark Pandas DataFrame est utilisé pour renvoyer les noms de lignes et de colonnes dans une liste.

La première valeur de la liste représente les noms de lignes, et la deuxième valeur représente les noms de colonne.

Syntaxe

pyspark_pandas.haches

Où pyspark_pandas est le pyspark pandas dataframe.

Si vous souhaitez retourner uniquement les lignes ou les colonnes, vous pouvez l'obtenir en utilisant la position d'index.

Syntaxe

Rendre les noms des lignes

pyspark_pandas.Axes [0]

Noms de colonne de retour

pyspark_pandas.Axes [1]

Exemple
Dans cet exemple, nous verrons les lignes et les colonnes qui existent dans le pyspark pandas ci-dessus.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [[90,78,90,54,67], 'Mark2': [[ 100,67,96,89,77], «Mark3»: [91,92,98,97,87])
#get tous les axes
imprimer (pyspark_pandas.haches)
#get les axes de ligne
print ("noms de lignes:", pyspark_pandas.Axes [0])
#get les axes de colonne
print ("Noms de colonne:", pyspark_pandas.Axes [1])

Sortir

[Int64Index ([0, 1, 2, 3, 4], dtype = "int64"), index (['student_lastname', 'mark1', 'mark2', 'mark3'], dtype = "objet")]]
Noms de lignes: int64Index ([0, 1, 2, 3, 4], dtype = "int64")
Noms de colonne: index (['student_lastname', 'mark1', 'mark2', 'mark3'], dtype = "objet")

Nous pouvons voir que les noms de lignes et de colonnes ont été retournés.

Pyspark - Pandas DataFrame: ndim ()

pyspark.pandas.Trame de données.ndim ()

ndim () dans le pyspark pandas dataframe est utilisé pour retourner les dimensions totales. Ici, le Pyspark Pandas DataFrame contient deux dimensions - ligne et colonne. Donc il reviendra 2.

Syntaxe

pyspark_pandas.ndim

Où pyspark_pandas est le pyspark pandas dataframe.

Exemple
Dans cet exemple, nous obtiendrons les dimensions totales du Pyspark Pandas DataFrame.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [[90,78,90,54,67], 'Mark2': [[ 100,67,96,89,77], «Mark3»: [91,92,98,97,87])
#get les dimensions
imprimer (pyspark_pandas.ndim)

Sortir

2

Pyspark - Pandas DataFrame: DTYPES ()

pyspark.pandas.Trame de données.dtypes ()

DTYPES () dans Pyspark Pandas DataFrame est utilisé pour renvoyer les types de données pour toutes les colonnes

Syntaxe

pyspark_pandas.dtypes

Où pyspark_pandas est le pyspark pandas dataframe.

Exemple
Dans cet exemple, nous obtiendrons les types de données du Pyspark Pandas DataFrame.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [[90,78,90,54,67], 'Mark2': [[ 100,67,96,89,77], «Mark3»: [91,92,98,97,87])
#get les types de données de toutes les colonnes
imprimer (pyspark_pandas.dtypes)

Sortir

Objet Student_lastName
Mark1 int64
Mark2 Int64
Mark3 int64
dtype: objet

Il est également possible d'obtenir le type de données à partir d'une seule colonne.

Syntaxe

Pyspark_pandas.colonne.dtypes

Où la colonne est le nom de la colonne

Exemple
Dans cet exemple, nous obtiendrons les types de données de Student_lastName et de la colonne Mark1.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [[90,78,90,54,67], 'Mark2': [[ 100,67,96,89,77], «Mark3»: [91,92,98,97,87])
#get le type de données de la colonne Student_lastName
imprimer (pyspark_pandas.Student_lastName.dtypes)
#get le type de données de la colonne Mark1
imprimer (pyspark_pandas.Mark1.dtypes)

Sortir

objet
Int64

Conclusion

Dans ce didacticiel Pyspark Pandas Dataframe, nous avons vu différentes méthodes pour obtenir les informations de DataFrame.

  1. La forme est utilisée pour retourner la taille du Pyspark Pandas DataFrame.
  2. Axes est utilisé pour retourner les noms de ligne et de colonne.
  3. NDIM renverra un nombre total de dimensions dans le Pyspark Pandas DataFrame.
  4. dtypes renvoie tous les types de données de colonne.