Pyspark - Fonctions mathématiques

Pyspark - Fonctions mathématiques
Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark en utilisant DataFrame.

Nous discuterons des fonctions mathématiques à Pyspark. Créons d'abord un dataframe

Exemple:
Ici, nous allons créer Pyspark DataFrame avec 5 lignes et 6 colonnes.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants1 = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 2.79, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 9, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants1)
# Afficher DataFrame
df.montrer()

Sortir:

Pyspark - Floor ()

Floor () est une fonction mathématique disponible à Pyspark.SQL.Module de fonctions utilisé pour renvoyer la valeur du sol (ci-dessous) de la valeur double donnée.

Nous pouvons l'utiliser avec la méthode SELECT () pour afficher les valeurs de plancher pour une colonne.

Syntaxe:
trame de données.SELECT («Floor (« colonne »))

Où:

  1. DataFrame est l'entrée Pyspark DataFrame
  2. la colonne est le nom de la colonne où le plancher () est appliqué

Exemple :
Dans cet exemple, nous collectons les valeurs de plancher de la colonne de hauteur à la méthode SELECT () et l'affichage à l'aide de la méthode Collect ().

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
Fonction d'importance
de Pyspark.SQL.Fonctions Import Floor
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants1 = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 2.79, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 9, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants1)
# Appliquer le sol sur la colonne de hauteur
df.sélectionner (plancher («hauteur»)).collecter()

Sortir:

[Row (plancher (hauteur) = 5),
Rangée (plancher (hauteur) = 3),
Rangée (plancher (hauteur) = 2),
Rangée (plancher (hauteur) = 2),
Rangée (plancher (hauteur) = 5)]

Pyspark - ceil ()

ceil () est une fonction mathématique disponible à Pyspark.SQL.Module de fonctions utilisé pour renvoyer la valeur du plafil (supérieur) de la valeur double donnée.

Nous pouvons l'utiliser avec la méthode SELECT () pour afficher les valeurs du plafond pour une colonne.

Syntaxe:
trame de données.SELECT («Ceil (« colonne »))

où:

  1. DataFrame est l'entrée Pyspark DataFrame
  2. la colonne est le nom de la colonne où ceil () est appliqué

Exemple :
Dans cet exemple, nous collectons les valeurs de plate

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
Fonction d'importance
de Pyspark.SQL.Fonctions Import Floor
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants1 = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 2.79, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 9, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants1)
# Appliquer le plafond sur la colonne de hauteur
df.SELECT (Ceil («hauteur»)).collecter()

Sortir:

[Row (ceil (hauteur) = 6),
Row (plaf (hauteur) = 4),
Row (plaf (hauteur) = 3),
Row (plaf (hauteur) = 3),
Row (ceil (hauteur) = 6)]

Pyspark - Round ()

Round () est une fonction mathématique disponible dans Pyspark.SQL.Module de fonctions utilisé pour renvoyer la valeur arrondi qui est plus proche de la double valeur donnée.

Nous pouvons l'utiliser avec la méthode SELECT () pour afficher les valeurs rondes pour une colonne.

Syntaxe:
trame de données.SELECT («Round (« colonne »))

où:

  1. DataFrame est l'entrée Pyspark DataFrame
  2. la colonne est le nom de la colonne où Round () est appliqué

Exemple :
Dans cet exemple, nous collectons des valeurs arrondies de la colonne de hauteur via la méthode SELECT () et l'affichage à l'aide de la méthode Collect ().

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
Fonction d'importance
de Pyspark.SQL.Fonctions Import Floor
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants1 = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 2.79, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 9, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants1)
# Appliquer une colonne de hauteur ronde sur la hauteur
df.sélectionner (rond («hauteur»)).collecter()

Sortir:

[Row (rond (hauteur, 0) = 6.0),
Row (rond (hauteur, 0) = 4.0),
Row (rond (hauteur, 0) = 3.0),
Row (rond (hauteur, 0) = 3.0),
Row (rond (hauteur, 0) = 6.0)]

Pyspark - Fonctions sinusoïdales

Sine est une fonction trigonométrique utilisée pour renvoyer les valeurs sinus. Il y a trois variations dans le sinus. Ce sont sin (), asin () et sinh ().

Où:

sin () est utilisé pour obtenir les valeurs sinusoïdales.

asin () est utilisé pour obtenir les valeurs sinusoïdales inverses.

sinh () est utilisé pour obtenir les valeurs sinusoïdales hyperboliques.

Nous pouvons l'utiliser avec la méthode SELECT () pour afficher les valeurs résultantes pour une colonne.

Notez que vous devez importer ces fonctions depuis Pyspark.SQL.les fonctions.

Syntaxe:

trame de données.SELECT («sin (« colonne »))
trame de données.SELECT («ASIN (« colonne »))
trame de données.SELECT («Sinh (« colonne »))

Où:

  1. DataFrame est l'entrée Pyspark DataFrame
  2. la colonne est le nom de la colonne où les fonctions sinusoïdales sont appliquées

Exemple:
Dans cet exemple, nous appliquons des fonctions sinus.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
Fonctions Sine Import
de Pyspark.SQL.fonctions importer le péché, asin, sinh
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants1 = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 2.79, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 9, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants1)
# Appliquer les fonctions sinusoïdales sur la colonne de hauteur
df.select (sin ('hauteur'), ​​asin ('hauteur'), ​​sinh ('hauteur')).collecter()

Sortir:

[Row (sin (hauteur) = - 0.47343399708193507, asin (hauteur) = nan, sinh (hauteur) = 163.5049831968973),
Ligne (sin (hauteur) = - 0.6039177530112606, Asin (hauteur) = nan, sinh (hauteur) = 22.116902337066122),
Row (sin (hauteur) = 0.34439346725839, asin (hauteur) = nan, sinh (hauteur) = 8.109799293936714),
Row (sin (hauteur) = 0.34439346725839, asin (hauteur) = nan, sinh (hauteur) = 8.109799293936714),
Ligne (sin (hauteur) = - 0.6389906043282237, Asin (hauteur) = nan, sinh (hauteur) = 133.86594234289123)]]

Pyspark - fonctions cosinus

Le cosinus est une fonction trigonométrique utilisée pour renvoyer les valeurs de cosinus de la colonne de dataframe Pyspark donnée. Il y a trois variations dans le cosinus. Ce sont cos (), acos () et cosh ().

Où:
cos () est utilisé pour obtenir les valeurs de cosinus.

ACOS () est utilisé pour obtenir les valeurs de cosinus inverses.

Cosh () est utilisé pour obtenir les valeurs de cosinus hyperboliques.

Nous pouvons l'utiliser avec la méthode SELECT () pour afficher les valeurs résultantes pour une colonne.

Notez que vous devez importer ces fonctions depuis Pyspark.SQL.les fonctions

Syntaxe:
trame de données.select («cos (« colonne »))
trame de données.SELECT («ACOS (« colonne »))
trame de données.SELECT («COSH (« colonne »))

Où:

  1. DataFrame est l'entrée Pyspark DataFrame
  2. La colonne est le nom de la colonne où les fonctions cosinus sont appliquées

Exemple :
Dans cet exemple, nous appliquons des fonctions de cosinus sur la colonne de hauteur via la méthode SELECT () et affichons les valeurs en utilisant la méthode.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
# importation des cosinus
de Pyspark.SQL.Fonctions Import Cos, ACOS, COSH
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants1 = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 2.79, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 9, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants1)
# Appliquer les fonctions de cosinus sur la colonne de hauteur
df.select (cos ('height'), acos ('hauteur'), ​​cosh ('hauteur')).collecter()

Sortir:

[Row (cos (hauteur) = 0.880829296973609, ACOS (hauteur) = nan, osh (hauteur) = 163.50804117907373),
Ligne (cos (hauteur) = - 0.7970466407920117, ACOS (hauteur) = Nan, Cosh (hauteur) = 22.139497938917245),
Ligne (cos (hauteur) = - 0.9388254042737362, ACOS (hauteur) = Nan, Cosh (hauteur) = 8.171220507851714),
Ligne (cos (hauteur) = - 0.9388254042737362, ACOS (hauteur) = Nan, Cosh (hauteur) = 8.171220507851714),
Ligne (cos (hauteur) = 0.7692145393713327, ACOS (hauteur) = nan, osh (hauteur) = 133.86967737075594)]]

Pyspark - fonctions tangentes

Tangent est une fonction trigonométrique utilisée pour renvoyer les valeurs tangentes de la colonne de données Pyspark donnée. Il y a trois variations de tangente. Ce sont tan (), atan () et tanh ().

Où:
tan () est utilisé pour obtenir les valeurs tangentes.

atan () est utilisé pour obtenir les valeurs de tangente inverse.

tanh () est utilisé pour obtenir les valeurs tangentes hyperboliques.

Nous pouvons l'utiliser avec la méthode SELECT () pour afficher les valeurs résultantes pour une colonne.

Notez que vous pouvez importer ces fonctions depuis Pyspark.SQL.les fonctions

Syntaxe:
trame de données.sélectionner («tan (« colonne »))
trame de données.SELECT («Atan (« colonne »))
trame de données.SELECT («TANH (« colonne »))

Où:

  1. DataFrame est l'entrée Pyspark DataFrame
  2. la colonne est le nom de la colonne où les fonctions tangentes sont appliquées

Exemple :
Dans cet exemple, nous appliquons des fonctions tangentes sur la colonne de hauteur via la méthode SELECT () et affichons les valeurs en utilisant la méthode.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
# importance d'import
de Pyspark.SQL.fonctions import tan, atan, tanh
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants1 = ['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 2.79, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 9, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants1)
# Appliquer des fonctions tangentes sur la colonne de hauteur
df.select (tan ('hauteur'), ​​atan ('height'), tanh ('hauteur')).collecter()

Sortir:

[Row (tan (hauteur) = - 0.5374866602514016, atan (hauteur) = 1.3997719475525305, tanh (hauteur) = 0.9999812976649076),
Row (tan (hauteur) = 0.7576943708227135, atan (hauteur) = 1.312823345585992, tanh (hauteur) = 0.9989793986334531),
Row (tan (hauteur) = - 0.36683441424852425, atan (hauteur) = 1.2266375707015524, tanh (hauteur) = 0.9924832264829984),
Row (tan (hauteur) = - 0.36683441424852425, atan (hauteur) = 1.2266375707015524, tanh (hauteur) = 0.9924832264829984),
Row (tan (hauteur) = - 0.8307053125262831, atan (hauteur) = 1.3937779115470312, tanh (hauteur) = 0.9999720995229238)]]

Conclusion

Dans cet article, nous avons discuté de six fonctions mathématiques. Parmi les six, trois sont des fonctions trigonométriques: sinus, cosinus et tangente. Dans chacun d'eux, nous avons discuté de toutes les variations avec des exemples. Les trois autres sont les fonctions: ceil (), plancher () et rond (). Enfin, nous nous assurerons que nous devons importer ces fonctions depuis Pyspark.SQL.Module de fonctions Inordre pour utiliser ces six fonctions.