Pyspark sql case quand

Pyspark sql case quand

Nous discuterons de Pyspark - une technologie significative de traitement des données qui peut gérer les données sur une échelle de pétaoctets, Pyspark quand autrement et un cas SQL à Pyspark lorsque.

Qu'est-ce que Pyspark?

Spark est un moteur de traitement distribué à usage général qui vous permet de gérer efficacement les données sur plusieurs machines. Vous pouvez développer des applications Spark pour traiter les données et les exécuter sur la plate-forme Spark à l'aide de Pyspark. L'AWS propose un EMR géré et la plate-forme Spark. Vous pouvez utiliser Pyspark pour traiter les données et établir un cluster EMR sur AWS. Pyspark peut lire les données à partir de divers formats de fichiers, notamment CSV, Parquet, JSON et Bases de données. Parce que Spark est principalement implémenté dans Scala, la création d'applications Spark à Scala ou Java vous permet d'accéder à plus de ses fonctionnalités que d'écrire des programmes Spark dans Python ou R. Pyspark, par exemple, ne prend pas actuellement en charge l'ensemble de données. Si vous faites une science des données, Pyspark est une meilleure option que Scala car il existe de nombreuses bibliothèques de science des données populaires écrites en python telles que Numpy, Tensorflow et Scikit-Learn.

Pyspark "quand" et "sinon"

«Sinon» et «quand» dans Pyspark, et le cas SQL «quand» travaillant avec DataFrame Pyspark, comme SQL et d'autres langages de programmation, ont un mécanisme de vérification de plusieurs conditions dans l'ordre et renvoyant une valeur lorsque la première condition est remplie à l'aide de SQL comme SQL comme SQL cas et quand(). Sinon() Les expressions sont similaires aux instructions «Switch» et «if-then-else» dans leur fonctionnalité.

Pyspark quand autrement - Quand () est une fonction SQL qui renvoie un type de colonne, et sinon () est une fonction de colonne qui produit aucun / null, si autrement () n'est pas utilisé.

Case SQL à Pyspark quand - Ceci est similaire à une expression SQL, et il est utilisé comme suit: Si la condition 1 est vraie, alors le résultat est vrai, et vice versa.

Exemple 1

1
2
3
4
5
6
7
8
9
dix
11
12
13
14
15
16
17
org d'importation.apache.étincelle.SQL.les fonctions.quand
val df = seq (
("A B", "2019-01-19"),
("A A", "2019-01-10"),
("B F", "2019-01-15"),
("B E", "2019-01-30"),
("C B", "2019-01-22"),
("D O", "2019-01-30"),
("E U", "2019-01-22")
df.withColumn ("Ends_With_B", quand ($ "word".Endswith ("b"), true).Sinon (false))

Exemple 2

1
2
3
4
5
6
7
8
9
dix
11
12
13
14
15
16
17
org d'importation.apache.étincelle.SQL.les fonctions.élément_at, divisé, quand
val df = seq (
("Ba", "humain"),
("Ab", "humain"),
("E_bot", "bot"),
("D_bot", "bot"),
("Tt", "humain"),
("A_bot", "bot"),
("C_bot", "bot")
).todf ("utilisateur", "type")
df.WithColumn ("ISBOT", quand ($ "utilisateur".Endswith ("bot"), élément_at (Split ($ "utilisateur", "_"), 1)))

Conclusion

Nous avons discuté de Pyspark, Pyspark When, Pyspark Sinon et SQL Case dans Pyspark où lesquels sont utilisés pour vérifier plusieurs conditions et renvoyer le premier élément qui suit la condition, ainsi que quelques exemples.