Dans cet article, nous démontrerons les opérateurs de comparaison Pandas DataFrame et comment ils peuvent être utilisés dans Pyspark. Avant cela, vous devez installer le module Pyspark comme indiqué ci-dessous:
Commande
pip install pysparkSyntaxe à importer
De Pyspark Import PandasAprès cela, nous pouvons créer ou utiliser le DataFrame à partir du module Pandas.
Syntaxe pour créer Pandas DataFrame
pyspark.pandas.Trame de données()Nous pouvons passer un dictionnaire ou une liste de listes avec des valeurs. Créons un Pandas DataFrame via Pyspark avec trois colonnes et cinq lignes.
#Import Pandas du module PysparkSortir
Maintenant, nous allons entrer dans notre tutoriel.
Les opérateurs de comparaison sont utilisés pour comparer toutes les valeurs du Pyspark Pandas DataFrame avec une valeur. Il renvoie vrai si la condition est satisfaite; Sinon, sera rendu false pour toutes les valeurs dans un dataframe.
Voyons-les un par un.
pyspark.pandas.Trame de données.LT (moins que l'opérateur)
Cet opérateur de comparaison est utilisé pour vérifier si toutes les valeurs du Pyspark Pandas DataFrame donné sont inférieures à la valeur donnée. Si oui, il reviendra vrai pour cette valeur; Sinon, false est retourné.
Il est également possible d'utiliser<' - less than operator.
Syntaxe
pyspark_pandas.LT (valeur)Paramètre
Il prend la valeur en tant que paramètre qui fait référence à une valeur numérique.
ExempleDans cet exemple, nous comparerons le DataFrame créé ci-dessus avec la valeur - 75 en utilisant LT et < operators.
#Import Pandas du module PysparkSortir
Les deux opérateurs sont retournés de la même manière, et selon la condition, les valeurs inférieures à 75 sont retournées vraies, et dans d'autres cas, il est retourné faux.
pyspark.pandas.Trame de données.LE (inférieur ou égal à l'opérateur)
LE est l'opérateur de comparaison utilisé pour vérifier si toutes les valeurs de la dataframe Pyspark Pyspark donnée sont inférieures ou égales à la valeur donnée. Si oui, il reviendra vrai pour cette valeur; Sinon, false est retourné.
Il est également possible d'utiliser<=' - less than or equal to operator.
Syntaxe
pyspark_pandas.le (valeur)Où pyspark_pandas est le pyspark pandas dataframe.
Paramètre
Il prend la valeur en tant que paramètre qui fait référence à une valeur numérique.
Exemple
Dans cet exemple, nous comparerons le dataframe de données créé ci-dessus avec la valeur - 75 en utilisant LE et <= operators.
Sortir
Les deux opérateurs sont retournés de la même manière, et selon la condition, les valeurs inférieures ou égales à 75 sont retournées vraies, et dans d'autres cas, il est retourné faux.
pyspark.pandas.Trame de données.GT (supérieur à l'opérateur)
Cet opérateur de comparaison est utilisé pour vérifier si toutes les valeurs du Pyspark Pandas DataFrame donné sont supérieures à la valeur donnée. Si oui, il reviendra vrai pour cette valeur; Sinon, false est retourné.
Il est également possible d'utiliser '>' - plus grand que l'opérateur.
Syntaxe
pyspark_pandas.GT (valeur)Où pyspark_pandas est le pyspark pandas dataframe.
Paramètre
Il prend la valeur en tant que paramètre qui fait référence à une valeur numérique.
Exemple
Dans cet exemple, nous comparerons le DataFrame créé ci-dessus avec la valeur - 75 en utilisant les opérateurs GT et>.
Sortir
Les deux opérateurs sont retournés de la même manière, et selon la condition, des valeurs supérieures à 75 sont retournées vraies, et dans d'autres cas, il est revenu faux.
pyspark.pandas.Trame de données.GE (Opérateur supérieur ou égal)
GE est l'opérateur de comparaison utilisé pour vérifier si toutes les valeurs de la dataframe Pyspark Pyspark donnée sont supérieures ou égales à la valeur donnée. Si oui, il reviendra vrai pour cette valeur; Sinon, false est retourné.
Il est également possible d'utiliser '> =' - supérieur ou égal à l'opérateur.
Syntaxe
pyspark_pandas.ge (valeur)Où pyspark_pandas est le pyspark pandas dataframe.
Paramètre
Il prend la valeur en tant que paramètre qui fait référence à une valeur numérique.
Exemple
Dans cet exemple, nous comparerons le DataFrame créé ci-dessus avec la valeur - 75 en utilisant GE et> = opérateurs.
Sortir
Les deux opérateurs sont retournés de la même manière, et selon la condition, des valeurs supérieures ou égales à 75 sont retournées vraies, et dans d'autres cas, il est revenu faux.
pyspark.pandas.Trame de données.EQ (opérateur logique d'égalité)
EQ est l'opérateur de comparaison utilisé pour vérifier si toutes les valeurs de la dataframe Pyspark Pyspark donnée sont égales à la valeur donnée. Si oui, il reviendra vrai pour cette valeur; Sinon, false est retourné.
Il est également possible d'utiliser '==' - égal à l'opérateur.
Syntaxe
pyspark_pandas.EQ (valeur)Où pyspark_pandas est le pyspark pandas dataframe.
Paramètre
Il prend la valeur en tant que paramètre qui fait référence à une valeur numérique.
Exemple
Dans cet exemple, nous comparerons le DataFrame créé ci-dessus avec la valeur - 97 en utilisant les opérateurs EQ et = =.
Sortir
Les deux opérateurs sont retournés de la même manière, et selon la condition, des valeurs égales à 97 sont retournées vraies, et dans d'autres cas, il est revenu faux.
pyspark.pandas.Trame de données.NE (pas égal à l'opérateur)
NE est l'opérateur de comparaison utilisé pour vérifier si toutes les valeurs de la dataframe Pyspark Pyspark donnée ne sont pas égales à la valeur donnée. Si oui, il reviendra vrai pour cette valeur; Sinon, false est retourné.
Il est également possible d'utiliser!= '- pas égal à l'opérateur.
Syntaxe
pyspark_pandas.NE (valeur)Où pyspark_pandas est le pyspark pandas dataframe.
Paramètre
Il prend la valeur en tant que paramètre qui fait référence à une valeur numérique.
Exemple
Dans cet exemple, nous comparerons le DataFrame créé ci-dessus avec la valeur - 97 en utilisant NE et != opérateurs.
Sortir
Les deux opérateurs sont retournés de la même manière, et selon la condition, les valeurs non égales à 97 sont retournées vraies, et dans d'autres cas, il est revenu faux.
Conclusion
Dans cet article Pyspark Pandas, nous voyons comment appliquer différents opérateurs de comparaison sur DataFrame par le biais d'opérateurs intégrés et d'opérateurs normaux. Chaque opérateur renvoie une valeur booléenne dans l'élément Pyspark Pandas DataFrame Wise. Les opérateurs de comparaison que nous avons utilisés sont: eq (), ne (), lt (), gt (), le () et ge ().