Ils peuvent être utilisés avec la clause de filtre ou la clause. Nous les verrons un par un avec différents exemples.
Fonction comme ()
La fonction similaire () dans Pyspark est utilisée pour vérifier si une chaîne ou un modèle existe dans une colonne de Pyspark DataFrame. S'il existe, les lignes appariées seront retournées. Sinon, une dataframe vide est renvoyée. C'est sensible à la casse.
Syntaxe
dataframe_object.filtre (dataframe_obj.colonne.comme (motif / chaîne))Où,
dataframe_object est le pyspark dataframe.
Paramètre:
Le comme() La fonction a un paramètre.
Il peut s'agir d'un modèle ou d'une chaîne telle que la fonction similaire () vérifiera si la valeur spécifiée est présente dans la colonne DataFrame ou non.
Retour:
En fonction de cette valeur de colonne, la ligne entière est renvoyée.
Tout d'abord, nous créerons le Pyspark DataFrame avec 10 lignes et 5 colonnes.
Importer PysparkSortir:
Maintenant, appliquons la fonction similaire () sur le pyspark dataframe pour renvoyer les résultats.
Exemple 1
Nous fournirons la chaîne, «sravan», dans la colonne de nom à l'intérieur de la méthode like () et renvoie toutes les lignes correspondant à cette chaîne.
Sortir:
Vous pouvez voir que Sravan est trouvé trois fois et que des rangées ont été retournées.
Exemple 2
Nous fournirons la chaîne, «Php», dans la colonne Technology1 à l'intérieur de la méthode Like () et renvoyer toutes les lignes correspondant à cette chaîne.
Sortir:
Vous pouvez voir que PHP ne se trouve pas dans la colonne Technology1. Par conséquent, 0 rangée a été retournée.
fonction ilike ()
La fonction ilike () dans Pyspark est utilisée pour vérifier si une chaîne ou un modèle existe dans une colonne de Pyspark DataFrame. S'il existe, les lignes appariées seront retournées. Sinon, le framage de données vide est renvoyé. C'est insensible à la cas.
Syntaxe
dataframe_object.filtre (dataframe_obj.colonne.ilike (motif / chaîne))Où,
dataframe_object est le pyspark dataframe.
Paramètre:
La fonction ilike () a un paramètre.
Il peut s'agir d'un modèle ou d'une chaîne telle que la fonction ilike () vérifiera si la valeur spécifiée est présente dans la colonne DataFrame ou non.
Retour:
En fonction de cette valeur de colonne, la ligne entière est renvoyée.
Exemple 1
Nous fournirons la chaîne, «sravan», dans la colonne de nom à l'intérieur de la méthode ilike () et renvoie toutes les lignes correspondant à cette chaîne.
Sortir:
Explication
Vous pouvez voir que Sravan est trouvé trois fois et que des rangées ont été retournées.
Exemple 2
Nous fournirons la chaîne, «Php», dans la colonne Technology1 à l'intérieur de la méthode Like () et renvoyer toutes les lignes correspondant à cette chaîne.
Sortir:
Explication
Vous pouvez voir que PHP ne se trouve pas dans la colonne Technology1. Mais ilike () est insensible à la casse. Donc, cela prend PHP et PHP comme le même. Ainsi, les rangées ont été retournées.
Conclusion
Dans ce didacticiel Pyspark, nous avons vu deux fonctions qui renvoient des valeurs basées sur la chaîne correspondant à la colonne Pyspark DataFrame. Les fonctions similaires () et ilike () sont utilisées pour vérifier si une chaîne ou un modèle existe dans une colonne de Pyspark DataFrame. La différence est comme () est sensible à la casse et ilike () est insensible à la casse.