Pyspark le moins fonction

Pyspark le moins fonction
Dans Pyspark DataFrame, il est possible de retourner les moindres éléments dans deux colonnes ou plus.

Pyspark prend en charge la fonction le moins (), qui est utilisée pour trouver les moins valeurs dans plusieurs colonnes dans toutes les lignes d'un RDD Pyspark ou d'un Pyspark DataFrame.

Il est disponible dans le pyspark.SQL.les fonctions module.

Syntaxe
dataframe_obj.SELECT (le moins (DataFrame_OBJ.colonne1, dataframe_obj.colonne2,…))

Paramètre:
Il faut des colonnes comme paramètres.

Nous pouvons accéder aux colonnes en utilisant le '.'Opérateur (Column1, Column2, représente les noms de colonne).

Données
Ici, nous allons créer un pyspark dataframe qui a 5 colonnes: [«sujet_id», «nom», «âge», «Technology1», «Technology2»] avec 10 lignes.

Importer Pyspark
de Pyspark.SQL IMPORT SPARKSESSE
Spark_App = Sparkcession.constructeur.nom de l'application('_').getorCreate ()
étudiants = [(4, «sravan», 23, «php», «test»),
(4, «sravan», 23, «php», «test»),
(46, «Mounika», 22, '.Net ',' html '),
(4, «Deepika», 21, «Oracle», «html»),
(46, «Mounika», 22, «Oracle», «Testing»),
(12, «Chandrika», 22, «Hadoop», «C #»),
(12, «Chandrika», 22, «Oracle», «Testing»),
(4, «Sravan», 23, «Oracle», «C #»),
(4, «Deepika», 21, «Php», «C #»),
(46, «Mounika», 22, '.Net ',' test ')
]]
dataframe_obj = spark_app.CreatedataFrame (étudiants, [«sujet_id», «nom», «âge», «technologie1», «technologie2»])
print ("---------- DataFrame ----------")
dataframe_obj.montrer()

Sortir:

Maintenant, nous verrons les exemples pour renvoyer les moins valeurs dans deux ou plusieurs colonnes à partir du DataFrame précédent.

Exemple 1
Donc, nous avons créé le DataFrame précédent. Maintenant, nous retournerons les moindres valeurs de Subject_id et âge Colonnes.

# Importez la moindre fonction du module - Pyspark.SQL.les fonctions
de Pyspark.SQL.Fonctions Importer le moins
#compare les colonnes - sujet_id et âge et renvoyez les valeurs les plus basses sur chaque ligne.
dataframe_obj.SELECT (DATAFRAME_OBJ.Subject_id, dataframe_obj.Âge, le moins (dataframe_obj.Subject_id, dataframe_obj.âge)).montrer()

Sortir:

Explication
Vous pouvez comparer les deux valeurs de colonne dans chaque ligne.

le moins (4,23) - 4
le moins (4,23) - 4
le moins (46,22) -22
le moins (4,21) - 4
le moins (46,22) - 22
le moins (12,22) - 12
le moins (12,22) - 12
le moins (4,23) - 4
le moins (4,21) - 4
le moins (46,22) - 22.

Exemple 2
Nous avons créé le DataFrame précédent. Maintenant, nous retournerons les moindres valeurs de Nom, Technology1, et Technologie2 Colonnes.

# Importez la moindre fonction du module - Pyspark.SQL.les fonctions
de Pyspark.SQL.Fonctions Importer le moins
#compare les colonnes - Nom, Technology1, Technology2 et Age et renvoyer les valeurs les plus basses sur chaque ligne.
dataframe_obj.SELECT (DATAFRAME_OBJ.nom, dataframe_obj.Technology1, dataframe_obj.Technologie2,
le moins (dataframe_obj.nom, dataframe_obj.Technology1, dataframe_obj.Technologie2)).montrer()

Sortir:

Ici, les chaînes sont comparées sur la base des valeurs ASCII:

le moins (sravan, php, test) - php
le moins (sravan, php, test) - php
le moins (Mounika, .Net, html) - .FILET
le moins (Deepika, Oracle, HTML) - HTML
le moins (Mounika, Oracle, test) - Oracle
le moins (Chandrika, Hadoop, C #) - C #
le moins (Chandrika, Oracle, test) - Oracle
le moins (Sravan, Oracle, C #) - C #
le moins (Deepika, PHP, C #) - C #
le moins (Mounika,.Net, test) -.FILET.

Code entier

Importer Pyspark
de Pyspark.SQL IMPORT SPARKSESSE
Spark_App = Sparkcession.constructeur.nom de l'application('_').getorCreate ()
étudiants = [(4, «sravan», 23, «php», «test»),
(4, «sravan», 23, «php», «test»),
(46, «Mounika», 22, '.Net ',' html '),
(4, «Deepika», 21, «Oracle», «html»),
(46, «Mounika», 22, «Oracle», «Testing»),
(12, «Chandrika», 22, «Hadoop», «C #»),
(12, «Chandrika», 22, «Oracle», «Testing»),
(4, «Sravan», 23, «Oracle», «C #»),
(4, «Deepika», 21, «Php», «C #»),
(46, «Mounika», 22, '.Net ',' test ')
]]
dataframe_obj = spark_app.CreatedataFrame (étudiants, [«sujet_id», «nom», «âge», «technologie1», «technologie2»])
print ("---------- DataFrame ----------")
dataframe_obj.montrer()
# Importez la moindre fonction du module - Pyspark.SQL.les fonctions
de Pyspark.SQL.Fonctions Importer le moins
#compare les colonnes - sujet_id et âge et renvoyez les valeurs les plus basses sur chaque ligne.
dataframe_obj.SELECT (DATAFRAME_OBJ.Subject_id, dataframe_obj.Âge, le moins (dataframe_obj.Subject_id, dataframe_obj.âge)).montrer()
#compare les colonnes - Nom, Technology1, Technology2 et Age et renvoyer les valeurs les plus basses sur chaque ligne.
dataframe_obj.SELECT (DATAFRAME_OBJ.nom, dataframe_obj.Technology1, dataframe_obj.Technologie2,
le moins (dataframe_obj.nom, dataframe_obj.Technology1, dataframe_obj.Technologie2)).montrer()

Conclusion

La fonction le moins () est utilisée pour trouver les valeurs les plus faibles dans plusieurs colonnes dans toutes les lignes d'un RDD Pyspark ou d'un Pyspark DataFrame. Il compare les colonnes avec des types de données similaires uniquement. Sinon, il augmentera l'exception d'analyse. Les expressions doivent toutes avoir le même type.