Pyspark entre la fonction

Pyspark entre la fonction
La fonction entre () dans Pyspark est utilisée pour sélectionner les valeurs dans la plage spécifiée. Il peut être utilisé avec la méthode select ().

Il reviendra vrai sur toutes les valeurs de la plage spécifiée.

Pour les valeurs qui ne sont pas dans la plage spécifiée, false est renvoyé.

Syntaxe
dataframe_obj.SELECT (DATAFRAME_OBJ.âge.entre (bas, haut))

Où,
dataframe_object est le pyspark dataframe.

Paramètres:
Il faut deux paramètres.

  1. Le bas sera la plage de départ
  2. Le haut sera la plage de fin.

Retour:
Il renvoie toutes les lignes avec des valeurs booléennes (true / false).

Nous examinerons différents exemples.

Exemple 1
Ici, nous obtiendrons les valeurs de la colonne d'âge qui se trouvent de l'ordre de 10 à 21.

Importer Pyspark
de Pyspark.Importation SQL *
Spark_App = Sparkcession.constructeur.nom de l'application('_').getorCreate ()
étudiants = [(4, «sravan», 23, «php», «test»),
(2, «Sravan», 23, «Oracle», «Testing»),
(46, «Mounika», 22, '.Net ',' html '),
(12, «Deepika», 21, «Oracle», «html»),
(46, «Mounika», 22, «Oracle», «Testing»),
(12, «Chandrika», 23, «Hadoop», «C #»),
(12, «Chandrika», 22, «Oracle», «Testing»),
(45, «Sravan», 23, «Oracle», «C #»),
(4, «Deepika», 21, «Php», «C #»),
(46, «Mounika», 22, '.Net ',' test ')
]]
dataframe_obj = spark_app.CreatedataFrame (étudiants, [«sujet_id», «nom», «âge», «technologie1», «technologie2»])
print ("--- réel dataframe ---")
dataframe_obj.montrer()
Imprimer ("--- les valeurs dans la colonne d'âge entre 10 et 21 ---")
dataframe_obj.SELECT (DATAFRAME_OBJ.Âge, dataframe_obj.âge.entre (10, 21)).montrer()

Sortir:

Vous pouvez voir que les valeurs de la colonne d'âge sont restées vraies entre 10 et 21. Le reste des valeurs renvoyées fausses.

Exemple 2
Ici, nous aurons les valeurs dans la colonne Subject_ID qui se trouvent dans la plage de 40 à 46.

Importer Pyspark
de Pyspark.Importation SQL *
Spark_App = Sparkcession.constructeur.nom de l'application('_').getorCreate ()
étudiants = [(4, «sravan», 23, «php», «test»),
(2, «Sravan», 23, «Oracle», «Testing»),
(46, «Mounika», 22, '.Net ',' html '),
(12, «Deepika», 21, «Oracle», «html»),
(46, «Mounika», 22, «Oracle», «Testing»),
(12, «Chandrika», 23, «Hadoop», «C #»),
(12, «Chandrika», 22, «Oracle», «Testing»),
(45, «Sravan», 23, «Oracle», «C #»),
(4, «Deepika», 21, «Php», «C #»),
(46, «Mounika», 22, '.Net ',' test ')
]]
dataframe_obj = spark_app.CreatedataFrame (étudiants, [«sujet_id», «nom», «âge», «technologie1», «technologie2»])
print ("--- réel dataframe ---")
dataframe_obj.montrer()
print ("--- Les valeurs dans la colonne sujette_id entre 40 et 46 ---")
dataframe_obj.SELECT (DATAFRAME_OBJ.Subject_id, dataframe_obj.Subject_id.entre (40,46)).montrer()

Sortir:

Vous pouvez voir que les valeurs de la colonne Subject_ID sont renvoyées vraies entre 40 et 46. Les autres valeurs sont renvoyées fausses.

Exemple 3
Ici, nous obtiendrons les valeurs de la colonne Subject_id qui se trouvent dans la plage de 60 à 100.

Importer Pyspark
de Pyspark.Importation SQL *
Spark_App = Sparkcession.constructeur.nom de l'application('_').getorCreate ()
étudiants = [(4, «sravan», 23, «php», «test»),
(2, «Sravan», 23, «Oracle», «Testing»),
(46, «Mounika», 22, '.Net ',' html '),
(12, «Deepika», 21, «Oracle», «html»),
(46, «Mounika», 22, «Oracle», «Testing»),
(12, «Chandrika», 23, «Hadoop», «C #»),
(12, «Chandrika», 22, «Oracle», «Testing»),
(45, «Sravan», 23, «Oracle», «C #»),
(4, «Deepika», 21, «Php», «C #»),
(46, «Mounika», 22, '.Net ',' test ')
]]
dataframe_obj = spark_app.CreatedataFrame (étudiants, [«sujet_id», «nom», «âge», «technologie1», «technologie2»])
print ("--- réel dataframe ---")
dataframe_obj.montrer()
Imprimer ("--- les valeurs dans la colonne Subject_id entre 60 et 100 ---")
dataframe_obj.SELECT (DATAFRAME_OBJ.Subject_id, dataframe_obj.Subject_id.entre (60 100)).montrer()

Sortir:

Vous pouvez voir que les valeurs sans que la colonne sujette_id ne sont pas dans la plage spécifiée. Donc, pour toutes les lignes, FALSE est retourné.

Conclusion

Dans ce tutoriel Pyspark, nous avons discuté de la fonction entre (). Où, la fonction entre () sélectionne les valeurs dans la plage spécifiée. Il peut être utilisé avec la méthode select (). Il reviendra vrai dans toutes les valeurs qui sont à l'intérieur dans la plage spécifiée. Pour les valeurs qui ne sont pas dans la plage spécifiée, false est renvoyé.