Obtenez des informations sur les données Pyspark

Obtenez des informations sur les données Pyspark
Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark en utilisant DataFrame. Nous pouvons obtenir les informations de Pyspark Dataframe comme le nombre total de lignes et de colonnes, de statistiques de dataframe et de taille du dataframe. Créons un pyspark dataframe pour la démonstration.

Exemple:
Dans cet exemple, nous allons créer le Pyspark DataFrame avec 5 lignes et 6 colonnes et afficher en utilisant la méthode Show ().

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants1 = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants1)
# Afficher DataFrame
df.montrer()

Sortir:

Scénario 1: Obtenez le nombre total de lignes

Nous pouvons obtenir le nombre total de lignes dans la fonction Pyspark Dataframe en utilisant le count ().

Syntaxe:
trame de données.compter()

Où, DataFrame est l'entrée Pyspark DataFrame.

Exemple:
Dans cet exemple, nous utiliserons la fonction Count () pour obtenir le nombre total de lignes.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants1 = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants1)
# Afficher le nombre de lignes
Imprimer (DF.compter())

Sortir:

5

Scénario 2: Obtenez le nombre total de colonnes

Nous pouvons obtenir le nombre total de colonnes dans le Pyspark DataFrame à l'aide de la fonction Len () avec la méthode des colonnes.

La méthode des colonnes renverra toutes les colonnes d'une liste. Ainsi, nous pouvons y appliquer la fonction Len () pour retourner le nombre de colonnes.

Syntaxe:
Len (DataFrame.Colonnes)

Où, DataFrame est l'entrée Pyspark DataFrame.

Exemple:
Dans cet exemple, nous utiliserons la fonction Len () pour obtenir le nombre total de colonnes et afficher les colonnes à l'aide de la méthode des colonnes.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants1 = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants1)
# Afficher le nombre de colonnes
Imprimer (Len (DF.Colonnes))
# Afficher les colonnes
Imprimer (DF.Colonnes)

Sortir:

6

['Address', 'Age', 'Height', 'Name', 'Rollno', 'Weight']

Scénario 3: Obtenez les statistiques

Nous pouvons obtenir les statistiques telles que le nombre, la moyenne, l'écart type et la valeur minimale et la valeur maximale de la méthode Pyspark Dataframe en utilisant décrire ()

Syntaxe:
trame de données.décrire()

Où, DataFrame est l'entrée Pyspark DataFrame.

Note - Il n'y a pas de moyenne et d'écart type pour les valeurs de type de chaîne. Dans ce cas, le résultat est nul.

Exemple:
Dans cet exemple, nous utiliserons la fonction décrite () pour obtenir les statistiques.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants1 = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants1)
df.décrire().montrer()

Sortir:

À partir de la sortie ci-dessus, le nom est de type de chaîne. Ainsi, la valeur nulle est occupée pour la moyenne et l'écart type.

Nous pouvons utiliser un résumé () pour retourner les statistiques. Il est similaire à la méthode décrite (). Mais cela rendra les valeurs de plage de 25%, 50% et 75%.

Exemple:
Dans cet exemple, nous utiliserons la fonction décrite () pour obtenir les statistiques.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants1 = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants1)
# Obtenez le résumé
df.résumé().montrer()

Sortir:

Conclusion

Dans cet article, nous avons discuté de l'utilisation des fonctions décrites () et résumé (). Ils sont utilisés pour retourner les statistiques du Pyspark d'entrée DataFrame. Nous avons vu qu'en utilisant la méthode Len (), nous pouvons obtenir le nombre total de colonnes et en utilisant la méthode Count (), nous pouvons obtenir un nombre total de lignes dans Pyspark DataFrame.