Pyspark - Pandas DataFrame Comparaison Opérateurs

Ethan Guillot

Dans Python, Pyspark est un module Spark qui fournit un type de traitement similaire comme Spark à l'aide de DataFrame, qui stockera les données données au format de ligne et de colonne. Pyspark - Pandas DataFrame représente le Pandas DataFrame, mais il contient le Pyspark DataFrame en interne. Pandas prend en charge la structure des données DataFrame et Pandas est importé du module Pyspark.

Dans cet article, nous démontrerons les opérateurs de comparaison Pandas DataFrame et comment ils peuvent être utilisés dans Pyspark. Avant cela, vous devez installer le module Pyspark comme indiqué ci-dessous:

Commande

pip install pyspark

Syntaxe à importer

De Pyspark Import Pandas

Après cela, nous pouvons créer ou utiliser le DataFrame à partir du module Pandas.

Syntaxe pour créer Pandas DataFrame

pyspark.pandas.Trame de données()

Nous pouvons passer un dictionnaire ou une liste de listes avec des valeurs. Créons un Pandas DataFrame via Pyspark avec trois colonnes et cinq lignes.

Sortir

Maintenant, nous allons entrer dans notre tutoriel.

Les opérateurs de comparaison sont utilisés pour comparer toutes les valeurs du Pyspark Pandas DataFrame avec une valeur. Il renvoie vrai si la condition est satisfaite; Sinon, sera rendu false pour toutes les valeurs dans un dataframe.

Voyons-les un par un.

pyspark.pandas.Trame de données.LT (moins que l'opérateur)

Cet opérateur de comparaison est utilisé pour vérifier si toutes les valeurs du Pyspark Pandas DataFrame donné sont inférieures à la valeur donnée. Si oui, il reviendra vrai pour cette valeur; Sinon, false est retourné.

Il est également possible d'utiliser<' - less than operator.

Syntaxe

pyspark_pandas.LT (valeur)
pyspark_pandasOù pyspark_pandas est le pyspark pandas dataframe.

Paramètre
Il prend la valeur en tant que paramètre qui fait référence à une valeur numérique.

ExempleDans cet exemple, nous comparerons le DataFrame créé ci-dessus avec la valeur - 75 en utilisant LT et < operators.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('mark1': [90,78,90,54,67], 'mark2': [100,67,96,89,77], 'mark3': [91,92,98,97,87] )
#Check Toutes les valeurs dans le cadre de données ci-dessus sont inférieures à 75
imprimer (pyspark_pandas.LT (75))
imprimer()
#Check Toutes les valeurs dans le cadre de données ci-dessus sont inférieures à 75
imprimer (pyspark_pandas<75)

Sortir

Les deux opérateurs sont retournés de la même manière, et selon la condition, les valeurs inférieures à 75 sont retournées vraies, et dans d'autres cas, il est retourné faux.

pyspark.pandas.Trame de données.LE (inférieur ou égal à l'opérateur)

LE est l'opérateur de comparaison utilisé pour vérifier si toutes les valeurs de la dataframe Pyspark Pyspark donnée sont inférieures ou égales à la valeur donnée. Si oui, il reviendra vrai pour cette valeur; Sinon, false est retourné.

Il est également possible d'utiliser<=' - less than or equal to operator.

Syntaxe

pyspark_pandas.le (valeur)
pyspark_pandas<=value

Où pyspark_pandas est le pyspark pandas dataframe.

Paramètre
Il prend la valeur en tant que paramètre qui fait référence à une valeur numérique.

Exemple
Dans cet exemple, nous comparerons le dataframe de données créé ci-dessus avec la valeur - 75 en utilisant LE et <= operators.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('mark1': [90,78,90,54,67], 'mark2': [100,67,96,89,77], 'mark3': [91,92,98,97,87] )
#Check Toutes les valeurs dans les données de données ci-dessus sont inférieures ou égales à 75
imprimer (pyspark_pandas.le (75))
imprimer()
#Check Toutes les valeurs dans les données de données ci-dessus sont inférieures ou égales à 75
imprimer (pyspark_pandas<=75)

Sortir

Les deux opérateurs sont retournés de la même manière, et selon la condition, les valeurs inférieures ou égales à 75 sont retournées vraies, et dans d'autres cas, il est retourné faux.

pyspark.pandas.Trame de données.GT (supérieur à l'opérateur)

Cet opérateur de comparaison est utilisé pour vérifier si toutes les valeurs du Pyspark Pandas DataFrame donné sont supérieures à la valeur donnée. Si oui, il reviendra vrai pour cette valeur; Sinon, false est retourné.

Il est également possible d'utiliser '>' - plus grand que l'opérateur.

Syntaxe

pyspark_pandas.GT (valeur)
pyspark_pandas> valeur

Où pyspark_pandas est le pyspark pandas dataframe.

Paramètre
Il prend la valeur en tant que paramètre qui fait référence à une valeur numérique.

Exemple
Dans cet exemple, nous comparerons le DataFrame créé ci-dessus avec la valeur - 75 en utilisant les opérateurs GT et>.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('mark1': [90,78,90,54,67], 'mark2': [100,67,96,89,77], 'mark3': [91,92,98,97,87] )
#Check Toutes les valeurs dans les données de données ci-dessus sont supérieures à 75
imprimer (pyspark_pandas.GT (75))
imprimer()
#Check Toutes les valeurs dans les données de données ci-dessus sont supérieures à 75
Print (Pyspark_pandas> 75)

Sortir

Les deux opérateurs sont retournés de la même manière, et selon la condition, des valeurs supérieures à 75 sont retournées vraies, et dans d'autres cas, il est revenu faux.

pyspark.pandas.Trame de données.GE (Opérateur supérieur ou égal)

GE est l'opérateur de comparaison utilisé pour vérifier si toutes les valeurs de la dataframe Pyspark Pyspark donnée sont supérieures ou égales à la valeur donnée. Si oui, il reviendra vrai pour cette valeur; Sinon, false est retourné.

Il est également possible d'utiliser '> =' - supérieur ou égal à l'opérateur.

Syntaxe

pyspark_pandas.ge (valeur)
pyspark_pandas> = valeur

Où pyspark_pandas est le pyspark pandas dataframe.

Paramètre
Il prend la valeur en tant que paramètre qui fait référence à une valeur numérique.

Exemple
Dans cet exemple, nous comparerons le DataFrame créé ci-dessus avec la valeur - 75 en utilisant GE et> = opérateurs.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('mark1': [90,78,90,54,67], 'mark2': [100,67,96,89,77], 'mark3': [91,92,98,97,87] )
#Check Toutes les valeurs dans les données de données ci-dessus sont supérieures ou égales à 75
imprimer (pyspark_pandas.GE (75))
imprimer()
#Check Toutes les valeurs dans les données de données ci-dessus sont supérieures ou égales à 75
print (pyspark_pandas> = 75)

Sortir

Les deux opérateurs sont retournés de la même manière, et selon la condition, des valeurs supérieures ou égales à 75 sont retournées vraies, et dans d'autres cas, il est revenu faux.

pyspark.pandas.Trame de données.EQ (opérateur logique d'égalité)

EQ est l'opérateur de comparaison utilisé pour vérifier si toutes les valeurs de la dataframe Pyspark Pyspark donnée sont égales à la valeur donnée. Si oui, il reviendra vrai pour cette valeur; Sinon, false est retourné.

Il est également possible d'utiliser '==' - égal à l'opérateur.

Syntaxe

pyspark_pandas.EQ (valeur)
pyspark_pandas == valeur

Où pyspark_pandas est le pyspark pandas dataframe.

Paramètre
Il prend la valeur en tant que paramètre qui fait référence à une valeur numérique.

Exemple
Dans cet exemple, nous comparerons le DataFrame créé ci-dessus avec la valeur - 97 en utilisant les opérateurs EQ et = =.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('mark1': [90,78,90,54,67], 'mark2': [100,67,96,89,77], 'mark3': [91,92,98,97,87] )
#Check Toutes les valeurs dans les données de données ci-dessus sont égales à 97
imprimer (pyspark_pandas.Eq (97))
imprimer()
#Check Toutes les valeurs dans les données de données ci-dessus sont égales à 97
Print (Pyspark_pandas == 97)

Sortir

Les deux opérateurs sont retournés de la même manière, et selon la condition, des valeurs égales à 97 sont retournées vraies, et dans d'autres cas, il est revenu faux.

pyspark.pandas.Trame de données.NE (pas égal à l'opérateur)

NE est l'opérateur de comparaison utilisé pour vérifier si toutes les valeurs de la dataframe Pyspark Pyspark donnée ne sont pas égales à la valeur donnée. Si oui, il reviendra vrai pour cette valeur; Sinon, false est retourné.

Il est également possible d'utiliser!= '- pas égal à l'opérateur.

Syntaxe

pyspark_pandas.NE (valeur)
pyspark_pandas!= valeur

Où pyspark_pandas est le pyspark pandas dataframe.

Paramètre
Il prend la valeur en tant que paramètre qui fait référence à une valeur numérique.

Exemple
Dans cet exemple, nous comparerons le DataFrame créé ci-dessus avec la valeur - 97 en utilisant NE et != opérateurs.

#Import Pandas du module Pyspark
De Pyspark Import Pandas
#create dataframe de pandas pyspark
pyspark_pandas = pandas.DataFrame ('mark1': [90,78,90,54,67], 'mark2': [100,67,96,89,77], 'mark3': [91,92,98,97,87] )
#Check Toutes les valeurs dans les données de données ci-dessus ne sont pas égales à 97
imprimer (pyspark_pandas.NE (97))
imprimer()
#Check Toutes les valeurs dans les données de données ci-dessus ne sont pas égales à 97
imprimer (pyspark_pandas!= 97)

Sortir

Les deux opérateurs sont retournés de la même manière, et selon la condition, les valeurs non égales à 97 sont retournées vraies, et dans d'autres cas, il est revenu faux.

Conclusion

Dans cet article Pyspark Pandas, nous voyons comment appliquer différents opérateurs de comparaison sur DataFrame par le biais d'opérateurs intégrés et d'opérateurs normaux. Chaque opérateur renvoie une valeur booléenne dans l'élément Pyspark Pandas DataFrame Wise. Les opérateurs de comparaison que nous avons utilisés sont: eq (), ne (), lt (), gt (), le () et ge ().

c Sharp

Qu'est-ce que le système.Espace de noms IO en C #

Système.IO est un espace de noms dans le C # qui fournit un ensemble de classes, de structures, d'én...

Julien Dumas

Docker

Comment les volumes sont-ils définis dans Docker Compose Yaml?

Les volumes sont définis à l'aide de la touche «Volumes» dans Docker Compose YAML Fichier. Les utili...

Jules Colin

Commandes Linux

Comment installer et activer l'authentification multi-facteurs SSH pour les systèmes Linux

Tutoriel sur la façon d'installer et d'activer le MFA pour l'accès SSH sur les systèmes Linux en con...

Lena Martinez