Qu'est-ce que Pyspark?
Pyspark est l'une des langues soutenues de Spark. Spark est une technologie de traitement des mégadonnées qui peut gérer les données sur une échelle de pétaoctets. Vous pouvez développer des applications Spark pour traiter les données et les exécuter sur la plate-forme Spark à l'aide de Pyspark. L'AWS propose un EMR géré et la plate-forme Spark. Vous pouvez utiliser Pyspark pour traiter les données et établir un cluster EMR sur AWS. Pyspark peut lire les données de CSV, Parquet, JSON et Bases de données.
Parce que Spark est principalement implémenté dans Scala, la création d'applications Spark à Scala ou Java vous permet d'accéder à plus de ses fonctionnalités que d'écrire des programmes Spark dans Python ou R. Pyspark ne prend pas actuellement en charge l'ensemble de données. Pour quelqu'un qui poursuit une science des données, Pyspark est une meilleure option que Scala car il existe de nombreuses bibliothèques de science des données populaires écrites en python telles que Numpy, Tensorflow et Scikit-Learn. Pour les ensembles de données plus petits, les pandas sont utilisés, tandis que, pour les ensembles de données plus grands, Pyspark est utilisé.
Par rapport à Pyspark, Pandas donne des résultats plus rapides. Selon la limitation de la mémoire et la taille des données, vous pouvez choisir entre Pyspark et Pandas Pour améliorer les performances. Utilisez toujours des pandas sur Pyspark lorsque le traitement des données est suffisant pour s'intégrer dans la mémoire.
L'ensemble de données distribué résilient (RDD) est le mécanisme sous-jacent sophistiqué des données d'étincelles. Les données sont résilientes, ce qui implique que si un système avec les données échoue, les données sont reproduites ailleurs et peuvent être restaurées. Distribué signifie que les données sont divisées entre les machines «n», vous permettant théoriquement accélérer un processus tout en gérant des quantités massives de données. L'une des ramifications de l'informatique distribuée est que les données doivent être synchronisées avec une extrême prudence. Spark exige une programmation fonctionnelle, ce qui signifie que les fonctions ne doivent pas avoir d'effets secondaires pour empêcher bon nombre de ces préoccupations. En conséquence, si vous souhaitez modifier une table, vous devez d'abord créer une nouvelle table.
De nombreux programmeurs ne connaissent pas le concept de programmation fonctionnelle. Pyspark ne fait pas du bon travail pour rendre le RDD transparent. L'API reprend une partie du désagrément de l'environnement RDD. La programmation fonctionnelle, par exemple, signifie qu'une fonction ne peut avoir aucun effet secondaire (ce qui rend le maintien des données cohérent beaucoup plus difficile). Un autre exemple est l'évaluation «paresseuse», qui permet à Spark d'attendre qu'il ait une image complète de ce que vous essayez de réaliser avant d'essayer d'optimiser les processus. Spark est rapidement devenu la technologie préférée de l'industrie pour le traitement des données. Ce n'est cependant pas le premier. Avant Spark, le moteur de traitement était MapReduce. Spark est largement utilisé dans les industries sur des systèmes de stockage distribués comme Hadoop, Mesos et le cloud. Il est essentiel de comprendre les systèmes de stockage distribués et comment ils fonctionnent.
Quelle est la méthode substring () dans Pyspark?
La méthode substring () dans Pyspark extrait une sous-chaîne d'une colonne DataFrame du type de chaîne en spécifiant sa longueur et son emplacement.
SQL Function substring ()
Nous pouvons obtenir une sous-chaîne d'une chaîne en utilisant le sous-chaîne() fonction du pyspark.SQL.les fonctions module en fournissant l'index et la longueur de la chaîne que nous souhaitons couper. Voici un exemple d'utilisation de cette méthode:
substrat (str, pos, len)Utilisation de substring () avec select ()
En utilisant sélectionner Dans Pyspark, nous pouvons obtenir la sous-chaîne d'une colonne.
df.SELECT ('Date', substring ('Date', 1,4).alias ('année'), \Utilisation de substring () avec selectExpr ()
L'exemple d'utilisation selectExpr La méthode pour obtenir l'année, le mois et le jour en tant que sous-chaînes de colonne (date) est la suivante:
df.selectExpr ('Date', 'substring (date, 1,4) As Year', \Utilisation de substr () à partir du type de colonne
Obtenez la sous-chaîne en utilisant le substr() fonction de pyspark.SQL.Colonne Tapez Pyspark.
df3 = df.WithColumn ('Year', Col ('Date').substr (1, 4)) \5. Mettre ensemble
Importer PysparkConclusion
Nous avons discuté de Pyspark, un système de traitement de Big Data capable de gérer des pétaoctets de données et sa méthode substring () ainsi que ses quelques exemples.