Écart-type à Pyspark

Pauline Giraud

Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark en utilisant DataFrame. L'écart type est un calcul mathématique pour déterminer à quel point les nombres sont similaires ou différents. Par exemple, les gens diront que ce nombre est X nombre d'écarts-types à l'écart de la moyenne. Ou au total tous les nombres dans un ensemble sont avec un nombre y d'écarts-types, etc. Nous présenterons trois fonctions pour l'écart-type dans cet article à l'aide de Pyspark. Pour chacune de ces fonctions, nous fournirons des exemples avec sélectionner() et agg () méthodes.

Pyspark - stddev ()
Pyspark - stddev_samp ()
Pyspark - stddev_pop ()

Pyspark - stddev ()

stddev () dans Pyspark est utilisé pour renvoyer l'écart type par rapport à une colonne particulière dans le dataframe.

Avant cela, nous devons créer Pyspark DataFrame pour la démonstration.

Exemple:

Nous allons créer un dataframe avec 5 lignes et 6 colonnes et l'afficher à l'aide du montrer() méthode.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16,
'Hauteur': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7,
'Hauteur': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9,
'Hauteur': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37,
'Hauteur': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#display dataframe
df.montrer()

Sortir:

Méthode -1: Utilisation de la méthode SELECT ()

Nous pouvons obtenir l'écart type par rapport à la colonne dans le DataFrame à l'aide de la méthode SELECT (). À l'aide de la méthode stddev (), nous pouvons obtenir l'écart type par rapport à la colonne. Pour utiliser cette méthode, nous devons l'importer de Pyspark.SQL.Module de fonctions, et enfin, nous pouvons utiliser la méthode collection () pour obtenir l'écart type par rapport à la colonne

Syntaxe:

df.select (stdDev ('Column_name'))

Où,

df est l'entrée pyspark dataframe
Column_name est la colonne pour obtenir l'écart type

Si nous voulons renvoyer l'écart-type par rapport à plusieurs colonnes, nous devons utiliser la méthode stddev () dans la méthode SELECT () en spécifiant le nom de colonne séparé par une virgule.

Syntaxe:

df.select (stdDev ('Column_name'), stddev ('Column_name'),… ., stddev ('column_name'))

Où,

df est l'entrée pyspark dataframe
Column_name est la colonne pour obtenir l'écart type

Exemple 1: colonne unique

Cet exemple obtiendra l'écart type par rapport à la colonne de hauteur dans le pyspark dataframe.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT L'ÉVIATION DE LA STANDE - FONCTION STDDEV
de Pyspark.SQL.fonctions import stddev
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16,
'Hauteur': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7,
'Hauteur': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9,
'Hauteur': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37,
'Hauteur': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#return l'écart type par rapport à la colonne de hauteur
df.SELECT (STDDEV ('HEUGHT')).collecter()

Sortir:

[Ligne (stddev_samp (hauteur) = 1.3030732903409539)]]

Dans l'exemple ci-dessus, l'écart type par rapport à la colonne de hauteur est renvoyé.

Exemple 2: plusieurs colonnes

Cet exemple obtiendra l'écart type par rapport aux colonnes de hauteur, d'âge et de poids dans le pyspark dataframe.

Sortir:

[Ligne (stddev_samp (hauteur) = 1.3030732903409539, stddev_samp (âge) = 12.157302332343306, stddev_samp (poids) = 20.211382931407737)]]

L'écart type par rapport aux colonnes de hauteur, d'âge et de poids est retournée dans l'exemple ci-dessus.

Méthode - 2: Utilisation de la méthode AGG ()

Nous pouvons obtenir l'écart type par rapport à la colonne dans le DataFrame à l'aide de la méthode AGG (). Cette méthode est connue sous le nom d'agrégation, qui regroupe les valeurs dans une colonne. Il prendra le dictionnaire en tant que paramètre dans cette touche sera le nom de colonne et la valeur est la fonction agrégée, i.e., stddev. En utilisant la méthode stddev (), nous pouvons obtenir l'écart type par rapport à la colonne, et enfin, nous pouvons utiliser la méthode Collect () pour obtenir l'écart type par rapport à la colonne.

Syntaxe:

df.AGG ('Column_name': stddev)

Où,

df est l'entrée pyspark dataframe
Column_name est la colonne pour obtenir l'écart type
STDDEV est une fonction d'agrégation utilisée pour renvoyer l'écart type

Si nous voulons renvoyer l'écart type par rapport à plusieurs colonnes, nous devons spécifier le nom de la colonne avec la fonction stddev séparée par une virgule.

Syntaxe:

df.AGG ('Column_name': stddev, 'Column_name': stddev,…, 'Column_name': stddev)

Où,

df est l'entrée pyspark dataframe
Column_name est la colonne pour obtenir l'écart type
STDDEV est une fonction d'agrégation utilisée pour renvoyer l'écart type

Exemple 1: colonne unique

Cet exemple obtiendra l'écart type par rapport à la colonne de hauteur dans le pyspark dataframe.

Sortir:

[Row (stddev (hauteur) = 1.3030732903409539)]]

Dans l'exemple ci-dessus, l'écart type par rapport à la colonne de hauteur est renvoyé.

Exemple 2: plusieurs colonnes

Cet exemple obtiendra l'écart type par rapport aux colonnes de hauteur, d'âge et de poids dans le pyspark dataframe.

Sortir:

[Row (stddev (poids) = 20.211382931407737, stddev (âge) = 12.157302332343306, stddev (hauteur) = 1.3030732903409539)]]

L'écart type par rapport aux colonnes de hauteur, d'âge et de poids est retournée dans l'exemple ci-dessus.

Pyspark - stddev_samp ()

STDDEV_SAMP () dans Pyspark est utilisé pour renvoyer l'écart type d'un échantillon d'une colonne particulière dans le dataframe. Il est similaire à la fonction stddev ().

Avant cela, nous devons créer Pyspark DataFrame pour la démonstration.

Exemple:

Nous allons créer un dataframe avec 5 lignes et 6 colonnes et l'afficher à l'aide de la méthode Show ().

Sortir:

Méthode -1: Utilisation de la méthode SELECT ()

Nous pouvons obtenir l'écart type par rapport à la colonne dans le DataFrame à l'aide de la méthode SELECT (). En utilisant la méthode stddev_samp (), nous pouvons obtenir l'écart type par rapport à la colonne. Pour utiliser cette méthode, nous devons l'importer de Pyspark.SQL.Module de fonctions, et enfin, nous pouvons utiliser la méthode collection () pour obtenir l'écart type par rapport à la colonne

Syntaxe:

df.select (stddev_samp ('column_name')))

Où,

df est l'entrée pyspark dataframe
Column_name est la colonne pour obtenir l'écart type dans un échantillon

Si nous voulons renvoyer l'écart-type par rapport à plusieurs colonnes d'un échantillon, nous devons utiliser la méthode stddev_samp () dans la méthode SELECT () en spécifiant le nom de colonne séparé par une virgule.

Syntaxe:

df.select (stddev_samp ('column_name'), stddev_samp ('column_name'),… ., stddev_samp ('chronmn_name'))

Où,

df est l'entrée pyspark dataframe
Column_name est la colonne pour obtenir l'écart-type de l'échantillon donné

Exemple 1: colonne unique

Dans cet exemple, nous obtiendrons l'écart-type d'un échantillon de la colonne de hauteur dans le Pyspark DataFrame.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT L'ÉVIATION DE LA STANDE - FONCTION STDDEV_SAMP
de Pyspark.SQL.Fonctions Importer STDDEV_SAMP
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16,
'Hauteur': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7,
'Hauteur': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9,
'Hauteur': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37,
'Hauteur': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#return l'écart type par rapport à la colonne de hauteur
df.select (stddev_samp ('hauteur')).collecter()

Sortir:

[Ligne (stddev_samp (hauteur) = 1.3030732903409539)]]

Dans l'exemple ci-dessus, l'écart type par rapport à la colonne de hauteur est renvoyé.

Exemple 2: plusieurs colonnes

Dans cet exemple, nous obtiendrons l'écart-type de l'échantillon par rapport aux colonnes de hauteur, d'âge et de poids dans le pyspark dataframe.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT L'ÉVIATION DE LA STANDE - FONCTION STDDEV_SAMP
de Pyspark.SQL.Fonctions Importer STDDEV_SAMP
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16,
'Hauteur': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7,
'Hauteur': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9,
'Hauteur': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37,
'Hauteur': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#return l'écart type par rapport à la colonne de hauteur, d'âge et de poids
df.select (stddev_samp ('height'), stddev_samp ('age'), stddev_samp ('poids'))).collecter()

Sortir:

[Ligne (stddev_samp (hauteur) = 1.3030732903409539, stddev_samp (âge) = 12.157302332343306, stddev_samp (poids) = 20.211382931407737)]]

Dans l'exemple ci-dessus, l'écart type par rapport aux colonnes de hauteur, d'âge et de poids est retournée.

Méthode - 2: Utilisation de la méthode AGG ()

Nous pouvons obtenir l'écart type d'un échantillon de la colonne dans le DataFrame à l'aide de la méthode AGG (). Cette méthode est connue sous le nom d'agrégation, qui regroupe les valeurs dans une colonne. Il prendra le dictionnaire en tant que paramètre dans cette touche sera le nom de colonne et la valeur est la fonction agrégée, i.e., stddev_samp. En utilisant la méthode stddev_samp (), nous pouvons obtenir l'écart type par rapport à la colonne, et enfin, nous pouvons utiliser la méthode Collect () pour obtenir l'écart type d'un échantillon de la colonne.

Syntaxe:

df.AGG ('Column_name': stddev_samp)

Où,

df est l'entrée pyspark dataframe
Column_name est la colonne pour obtenir l'écart type d'un échantillon
STDDEV_SAMP est une fonction d'agrégation utilisée pour retourner l'écart type d'un échantillon

Si nous voulons renvoyer l'écart type par rapport à plusieurs colonnes, nous devons spécifier le nom de la colonne avec la fonction stddev_samp séparée par une virgule.

Syntaxe:

df.AGG ('Column_name': stddev_samp, 'Column_name': stddev_samp,…, 'Column_name': stddev_samp)

Où,

df est l'entrée pyspark dataframe
Column_name est la colonne pour obtenir l'écart type d'un échantillon
STDDEV_SAMP est une fonction d'agrégation utilisée pour retourner l'écart type d'un échantillon

Exemple 1: colonne unique

Cet exemple obtiendra l'écart type par rapport à la colonne de hauteur dans le pyspark dataframe.

Sortir:

[Ligne (stddev_samp (hauteur) = 1.3030732903409539)]]

Dans l'exemple ci-dessus, l'écart type d'un échantillon de la colonne de hauteur est renvoyé.

Exemple 2: plusieurs colonnes

Dans cet exemple, nous obtiendrons l'écart type d'un échantillon des colonnes de hauteur, d'âge et de poids dans le Pyspark DataFrame.

Sortir:

[Row (stddev_samp (poids) = 20.211382931407737, stddev_samp (âge) = 12.157302332343306, stddev_samp (hauteur) = 1.3030732903409539)]]

Dans l'exemple ci-dessus, l'écart type par rapport aux colonnes de hauteur, d'âge et de poids est retournée.

Pyspark - stddev_pop ()

STDDEV_POP () dans Pyspark est utilisé pour retourner l'écart type d'une population d'une colonne particulière dans le dataframe.

Avant cela, nous devons créer Pyspark DataFrame pour la démonstration.

Exemple:

Nous allons créer un dataframe avec 5 lignes et 6 colonnes et l'afficher à l'aide de la méthode Show ().

Sortir:

Méthode -1: Utilisation de la méthode SELECT ()

Nous pouvons obtenir l'écart type par rapport à la colonne dans le DataFrame à l'aide de la méthode SELECT (). En utilisant la méthode stddev_pop (), nous pouvons obtenir l'écart type de la population de la colonne. Pour utiliser cette méthode, nous devons l'importer de Pyspark.SQL.Module de fonctions, et enfin, nous pouvons utiliser la méthode collection () pour obtenir l'écart type par rapport à la colonne

Syntaxe:

df.SELECT (stddev_pop ('Column_name'))

Où,

df est l'entrée pyspark dataframe
Column_name est la colonne pour obtenir l'écart type d'une population

Si nous voulons renvoyer l'écart type par rapport à plusieurs colonnes pour l'échantillon donné, nous devons utiliser la méthode stddev_pop () dans la méthode SELECT () en spécifiant le nom de colonne séparé par une virgule.

Syntaxe:

df.select (stddev_pop ('column_name'), stddev_pop ('chronn_name'),… ., stddev_pop ('column_name'))

Où,

df est l'entrée pyspark dataframe
Column_name est la colonne pour obtenir l'écart-type de la population donnée

Exemple 1: colonne unique

Dans cet exemple, nous obtiendrons l'écart-type d'une population de la colonne de hauteur dans le Pyspark DataFrame.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT L'écart type - Fonction STDDEV_POP
de Pyspark.SQL.Fonctions Importer STDDEV_POP
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16,
'Hauteur': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7,
'Hauteur': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9,
'Hauteur': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37,
'Hauteur': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#return l'écart type par rapport à la colonne de hauteur
df.select (stddev_pop ('height')).collecter()

Sortir:

[Ligne (stddev_pop (hauteur) = 1.1655041827466772)]]

Dans l'exemple ci-dessus, l'écart type par rapport à la colonne de hauteur est renvoyé.

Exemple 2: plusieurs colonnes

Dans cet exemple, nous obtiendrons l'écart-type de la population par rapport aux colonnes de hauteur, d'âge et de poids dans le pyspark dataframe.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT L'ÉVIATION DE LA STANDE - FONCTION STDDEV_POP
de Pyspark.SQL.Fonctions Importer STDDEV_POP
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23,
'Hauteur': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16,
'Hauteur': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7,
'Hauteur': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9,
'Hauteur': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37,
'Hauteur': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#return l'écart type par rapport à la colonne de hauteur, d'âge et de poids
df.select (stddev_pop ('height'), stddev_pop ('age'), stddev_pop ('poids'))).collecter()

Sortir:

[Ligne (stddev_pop (hauteur) = 1.1655041827466772, stddev_pop (âge) = 10.87382177525455, stddev_pop (poids) = 18.077610461562667)]]

Dans l'exemple ci-dessus, l'écart type par rapport aux colonnes de hauteur, d'âge et de poids est retournée.

Méthode - 2: Utilisation de la méthode AGG ()

Nous pouvons obtenir l'écart type de la population par rapport à la colonne dans le DataFrame en utilisant la méthode AGG (). Cette méthode est connue sous le nom d'agrégation, qui regroupe les valeurs dans une colonne. Il prendra le dictionnaire en tant que paramètre dans cette touche sera le nom de colonne et la valeur est la fonction agrégée, i.e. stddev_pop. À l'aide de la méthode stddev_pop (), nous pouvons obtenir l'écart type par rapport à la colonne. Enfin, nous pouvons utiliser la méthode Collect () pour obtenir l'écart type d'une population de la colonne.

Syntaxe:

df.AGG ('Column_name': stddev_pop)

Où,

df est l'entrée pyspark dataframe
Column_name est la colonne pour obtenir l'écart type d'une population
STDDEV_POP est une fonction d'agrégation utilisée pour retourner l'écart type d'une population

Si nous voulons renvoyer l'écart type par rapport à plusieurs colonnes, nous devons spécifier le nom de la colonne avec la fonction stddev_pop séparée par une virgule.

Syntaxe:

df.AGG ('Column_name': stddev_pop, 'Column_name': stddev_pop,…, 'Column_name': stddev_pop)

Où,

df est l'entrée pyspark dataframe
Column_name est la colonne pour obtenir l'écart type d'une population
STDDEV_POP est une fonction d'agrégation utilisée pour retourner l'écart type d'une population

Exemple 1: colonne unique

Cet exemple obtiendra l'écart type par rapport à la colonne de hauteur dans le pyspark dataframe.

Sortir:

[Ligne (stddev_pop (hauteur) = 1.1655041827466772)]]

Dans l'exemple ci-dessus, l'écart type d'un échantillon de la colonne de hauteur est renvoyé.

Exemple 2: plusieurs colonnes

Dans cet exemple, nous obtiendrons l'écart type d'un échantillon des colonnes de hauteur, d'âge et de poids dans le Pyspark DataFrame.

Sortir:

[Row (stddev_pop (poids) = 18.077610461562667, stddev_pop (âge) = 10.87382177525455, stddev_pop (hauteur) = 1.1655041827466772)]]

Dans l'exemple ci-dessus, l'écart type par rapport aux colonnes de hauteur, d'âge et de poids est retournée.

Conclusion

Nous avons discuté de la façon d'obtenir l'écart-type par rapport au Pyspark DataFrame en utilisant stddev (), stddev_samp () et stddev_pop () fonctions à travers le sélectionner() et agg () méthodes.

Python

Comment décompresser les fichiers dans Python

Le module «ZipFile» et le module «Shutil» sont utilisés pour décompresser les fichiers uniques ou mu...

Gabriel Bernard

Python

Python Count Occurrences in List

Pour compter les occurrences dans une liste de Python, appliquez la méthode «Count ()», la classe «c...

Zoe Martinez

Python

Astype Numpy

La méthode «Astype ()» du module Numpy est utilisée pour modifier le type de données d'un tableau Nu...

Lena Dupuy