Pyspark - min

Pyspark - min
Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark en utilisant DataFrame. min () dans pyspark est utilisé pour renvoyer la valeur minimale d'une colonne particulière dans le dataframe. Nous pouvons obtenir la valeur minimale de trois manières.
  1. Méthode 1: Utilisation de la méthode SELECT ()
  2. Méthode 2: Utilisation de la méthode AGG ()
  3. Méthode 3: Utilisation de la méthode groupby ()

Avant cela, nous devons créer Pyspark DataFrame pour la démonstration.

Exemple:

Nous allons créer un dataframe avec 5 lignes et 6 colonnes et l'afficher à l'aide de la méthode Show ().

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16,
'Hauteur': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7,
'Hauteur': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9,
'Hauteur': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37,
'Hauteur': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#display dataframe
df.montrer()

Capture d'écran de sortie:

Méthode -1: Utilisation de la méthode SELECT ()

Nous pouvons obtenir la valeur minimale de la colonne dans le DataFrame à l'aide de la méthode SELECT (). En utilisant la méthode min (), nous pouvons obtenir la valeur minimale de la colonne. Pour utiliser cette méthode, nous devons l'importer de Pyspark.SQL.Module de fonctions, et enfin, nous pouvons utiliser la méthode collection () pour obtenir le minimum de la colonne

Syntaxe:

df.select (min ('column_name')))

Où,

  1. df est l'entrée pyspark dataframe
  2. Column_name est la colonne pour obtenir la valeur minimale

Si nous voulons renvoyer la valeur minimale à partir de plusieurs colonnes, nous devons utiliser la méthode min () dans la méthode SELECT () en spécifiant le nom de colonne séparé par une virgule.

Syntaxe:

df.select (min ('column_name'), min ('column_name'),… ., min ('column_name'))

Où,

  1. df est l'entrée pyspark dataframe
  2. Column_name est la colonne pour obtenir la valeur minimale

Exemple 1: colonne unique

Cet exemple obtiendra la valeur minimale de la colonne de hauteur dans le pyspark dataframe.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
# importer la fonction minimum - min
de Pyspark.SQL.Fonctions Import Min
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16,
'Hauteur': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7,
'Hauteur': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9,
'Hauteur': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37,
'Hauteur': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#return le minimum de la colonne de hauteur
df.sélectionner (min («hauteur»)).collecter()

Sortir:

[Row (min (hauteur) = 2.79)]

Dans l'exemple ci-dessus, la valeur minimale de la colonne de hauteur est renvoyée.

Exemple 2: plusieurs colonnes

Cet exemple obtiendra la valeur minimale des colonnes de hauteur, d'âge et de poids dans le Pyspark DataFrame.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LA FONCTION MINIMUM - MIN
de Pyspark.SQL.Fonctions Import Min
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = ['rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16,
'Hauteur': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7,
'Hauteur': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9,
'Hauteur': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37,
'Hauteur': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#Retturn le minimum des colonnes de hauteur, d'âge et de poids
df.select (min ('height'), min ('age'), min ('poids')).collecter()

Sortir:

[Row (min (hauteur) = 2.79, min (âge) = 7, min (poids) = 17)

Dans l'exemple ci-dessus, la valeur minimale des colonnes de hauteur, d'âge et de poids est retournée.

Méthode - 2: Utilisation de la méthode AGG ()

Nous pouvons obtenir la valeur minimale de la colonne dans le dataframe à l'aide de la méthode AGG (). Cette méthode est connue sous le nom d'agrégation, qui regroupe les valeurs dans une colonne. Il prendra le dictionnaire en tant que paramètre dans cette touche sera le nom de colonne et la valeur est la fonction agrégée, i.e., min. À l'aide de la méthode min (), nous pouvons obtenir la valeur minimale de la colonne, et enfin, nous pouvons utiliser la méthode collection () pour obtenir le minimum de la colonne.

Syntaxe:

df.AGG ('Column_name': min)

Où,

  1. df est l'entrée pyspark dataframe
  2. Column_name est la colonne pour obtenir la valeur minimale
  3. min est une fonction d'agrégation utilisée pour renvoyer la valeur minimale

Si nous voulons renvoyer la valeur minimale à partir de plusieurs colonnes, nous devons spécifier le nom de la colonne avec la fonction min séparée par une virgule.

Syntaxe:

df.AGG ('Column_name': min, 'Column_name': min,…, 'Column_name': min)

Où,

  1. df est l'entrée pyspark dataframe
  2. Column_name est la colonne pour obtenir la valeur minimale
  3. min est une fonction d'agrégation utilisée pour renvoyer la valeur minimale

Exemple 1: colonne unique

Cet exemple obtiendra la valeur minimale de la colonne de hauteur dans le pyspark dataframe.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16,
'Hauteur': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7,
'Hauteur': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9,
'Hauteur': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37,
'Hauteur': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#return le minimum de la colonne de hauteur
df.agg ('height': 'min').collecter()

Sortir:

[Row (min (hauteur) = 2.79)]

Dans l'exemple ci-dessus, la valeur minimale de la colonne de hauteur est renvoyée.

Exemple 2: plusieurs colonnes

Cet exemple obtiendra la valeur minimale des colonnes de hauteur, d'âge et de poids dans le Pyspark DataFrame.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16,
'Hauteur': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7,
'Hauteur': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9,
'Hauteur': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37,
'Hauteur': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#Retturn le minimum des colonnes de hauteur, d'âge et de poids
df.AGG ('Height': 'Min', 'Age': 'Min', 'Weight': 'min').collecter()

Sortir:

[Row (min (poids) = 17, min (âge) = 7, min (hauteur) = 2.79)]

Dans l'exemple ci-dessus, la valeur minimale des colonnes de hauteur, d'âge et de poids est retournée.

Méthode - 3: Utilisation de la méthode groupby ()

Nous pouvons obtenir la valeur minimale de la colonne dans le DataFrame à l'aide de la méthode GroupBy (). Cette méthode renverra la valeur minimale en regroupant des valeurs similaires dans une colonne. Nous devons utiliser la fonction min () après avoir effectué une fonction GroupBy ()

Syntaxe:

df.GroupBy (Group_Column). min ('column_name')

Où,

  1. df est l'entrée pyspark dataframe
  2. Group_Column est la colonne où les valeurs sont regroupées en fonction de cette colonne
  3. Column_name est la colonne pour obtenir la valeur minimale
  4. min est une fonction d'agrégation utilisée pour renvoyer la valeur minimale.

Exemple 1:

Dans cet exemple, nous regrouperons la colonne d'adresse avec la colonne de hauteur pour retourner la valeur minimale en fonction de cette colonne d'adresse.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16,
'Hauteur': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7,
'Hauteur': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9,
'Hauteur': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37,
'Hauteur': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#return le minimum du groupe de colonne de hauteur avec colonne d'adresse
df.Groupby ('Adresse').min («hauteur»).collecter()

Sortir:

Il y a trois valeurs uniques dans le champ d'adresse - Hyd, Guntur et Patna. Ainsi, le minimum sera formé en regroupant les valeurs à travers les valeurs d'adresse.

[Row (adresse = 'hyd', min (hauteur) = 3.69),
Ligne (adresse = 'guntur', min (hauteur) = 5.79),
Ligne (adresse = 'patna', min (hauteur) = 2.79)]

Exemple 2:

Dans cet exemple, nous regrouperons la colonne d'adresse avec la colonne de poids pour retourner la valeur minimale en fonction de cette colonne d'adresse.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16,
'Hauteur': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7,
'Hauteur': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9,
'Hauteur': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37,
'Hauteur': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#return le minimum du groupe de colonnes de poids avec colonne d'adresse
df.Groupby ('Adresse').min ('poids').collecter()

Sortir:

Il y a trois valeurs uniques dans le champ d'adresse - Hyd, Guntur et Patna. Ainsi, le minimum sera formé en regroupant les valeurs à travers les valeurs d'adresse.

[Row (adresse = 'hyd', min (poids) = 28),
Ligne (adresse = 'guntur', min (poids) = 67),
Ligne (adresse = 'patna', min (poids) = 17)]

Conclusion:

Nous avons discuté de la façon d'obtenir la valeur minimale à partir du Pyspark DataFrame à l'aide des méthodes SELECT () et AGG (). Pour obtenir la valeur minimale en se regroupant avec d'autres colonnes, nous avons utilisé le groupe avec la fonction min (). Voir aussi l'article Pyspark Max ().