Vérifiez que les données données sont Pyspark RDD ou DataFrame

Vérifiez que les données données sont Pyspark RDD ou DataFrame

Dans Python, Pyspark est un module Spark utilisé pour fournir un type de traitement similaire comme Spark.

RDD signifie ensemble de données distribuées résilientes. Nous pouvons appeler RDD une structure de données fondamentale dans Apache Spark.

Syntaxe:

1
Spark_App.étincelle.paralléliser (données)

Nous pouvons afficher les données dans un format tabulaire. La structure de données utilisée est DataFrame.Le format tabulaire signifie qu'il stocke les données en lignes et colonnes.

Syntaxe:

Dans Pyspark, nous pouvons créer une application DataFrame à partir de Spark avec la méthode CreateDataFrame ().

Syntaxe:

1
Spark_App.CreatedataFrame (Input_data, colonnes)

Où Input_data peut être un dictionnaire ou une liste pour créer un dataframe à partir de ces données, et si l'entrée_data est une liste de dictionnaires, les colonnes ne sont pas nécessaires. S'il s'agit d'une liste imbriquée, nous devons fournir les noms de colonne.

Maintenant, discutons de la façon de vérifier les données données dans Pyspark RDD ou DataFrame.

Création de Pyspark RDD:

Dans cet exemple, nous créerons un RDD nommé d'étudiants et afficher à l'aide de Collect () Action.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
# Importer RDD de Pyspark.RDD
de Pyspark.RDD IMPORT RDD
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = spark_app.étincelle.parallélize ([
'rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»])
#Display le RDD en utilisant Collect ()
imprimer (étudiants.collecter())

Sortir:

['rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]

Création de Pyspark DataFrame:

Dans cet exemple, nous créerons un dataframe nommé DF à partir des données des élèves et l'afficher à l'aide de la méthode Show ().

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LA FONCTION COL
de Pyspark.SQL.Fonctions Import Col
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#display le dataframe
df.montrer()

Sortir:

Méthode 1: isInstance ()

Dans Python, la méthode isInstance () est utilisée pour comparer l'objet donné (données) avec le type (RDD / DataFrame)

Syntaxe:

1
isInstance (objet, rdd / dataframe)

Il faut deux paramètres:

Paramètres:

  1. L'objet fait référence aux données
  2. RDD est le type disponible dans Pyspark.Le module RDD et DataFrame sont le type disponible dans Pyspark.module SQL

Il renverra les valeurs booléennes (true / false).

Supposons que les données soient RDD et que le type est également RDD, alors il renvoie vrai, sinon il renverra faux.

De même, si les données sont DataFrame et que le type est également DataFrame, alors il renvoie vrai, sinon il renverra faux.

Exemple 1:

Vérifier l'objet RDD

Dans cet exemple, nous appliquerons IsInstance () pour l'objet RDD.

# importer le module Pyspark
Importer Pyspark
#Import Sparkcession et DataFrame pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE, DATAFRAME
# Importer RDD de Pyspark.RDD
de Pyspark.RDD IMPORT RDD
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = spark_app.étincelle.parallélize ([
'rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»])
#Check Si l'objet des étudiants est RDD
imprimer (isinstance (étudiants, RDD))
#Check Si l'objet des étudiants est DataFrame
imprimer (isinstance (étudiants, dataframe))

Sortir:

1
2
3
Vrai
FAUX

Tout d'abord, nous avons comparé les étudiants avec RDD; Il est revenu vrai car il s'agit d'un RDD; Et puis nous avons comparé les étudiants avec DataFrame, il est revenu faux parce qu'il s'agit d'un RDD (pas un DataFrame).

Exemple 2:

Vérifiez l'objet DataFrame

Dans cet exemple, nous appliquerons IsInstance () pour l'objet DataFrame.

# importer le module Pyspark
Importer Pyspark
#Import Sparkcession, DataFrame pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE, DATAFRAME
#IMPORT LA FONCTION COL
de Pyspark.SQL.Fonctions Import Col
# Importer RDD de Pyspark.RDD
de Pyspark.RDD IMPORT RDD
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#Check si le DF est RDD
Imprimer (Isinstance (DF, RDD))
#Check Si le DF est DataFrame
print (isInstance (df, dataframe))

Sortir:

1
2
3
FAUX
Vrai

Tout d'abord, nous avons comparé DF avec RDD; Il est retourné faux car il s'agit d'un DataFrame, puis nous avons comparé DF avec DataFrame; Il est retourné vrai car il s'agit d'un dataframe (pas un RDD).

Méthode 2: type ()

Dans Python, la méthode Type () renvoie la classe de l'objet spécifié. Il prend l'objet comme paramètre.

Syntaxe:

1
type (objet)

Exemple 1:

Vérifiez un objet RDD.

Nous appliquerons Type () à l'objet RDD.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
# Importer RDD de Pyspark.RDD
de Pyspark.RDD IMPORT RDD
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = spark_app.étincelle.parallélize ([
'rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»])
#Check le type d'étudiants
imprimer (type (étudiants))

Sortir:

1

Nous pouvons voir que la classe RDD est retournée.

Exemple 2:

Vérifiez l'objet DataFrame.

Nous appliquerons Type () sur l'objet DataFrame.

# importer le module Pyspark
Importer Pyspark
#mport Sparkcession pour la création d'une session
de Pyspark.SQL IMPORT SPARKSESSE
#IMPORT LA FONCTION COL
de Pyspark.SQL.Fonctions Import Col
#create une application nommée Linuxhint
Spark_App = Sparkcession.constructeur.appname ('Linuxhint').getorCreate ()
# Créer des données étudiants avec 5 lignes et 6 attributs
étudiants = [
'rollno': '001', 'name': 'sravan', 'Âge': 23, 'height': 5.79, «poids»: 67, «adresse»: «guntur»,
'rollno': '002', 'name': 'ojaswi', 'Âge': 16, 'height': 3.79, «poids»: 34, «adresse»: «hyd»,
'rollno': '003', 'name': 'gnanesh chowdary', 'Âge': 7, 'height': 2.79, «poids»: 17, «adresse»: «patna»,
'rollno': '004', 'name': 'rohith', 'Âge': 9, 'height': 3.69, «poids»: 28, «adresse»: «hyd»,
'rollno': '005', 'name': 'sridevi', 'Âge': 37, 'height': 5.59, «poids»: 54, «adresse»: «hyd»]
# Créer le DataFrame
df = spark_app.CreatedataFrame (étudiants)
#Check le type de DF
imprimer (type (df))

Sortir:

1

Nous pouvons voir que la classe DataFrame est renvoyée.

Conclusion

Dans l'article ci-dessus, nous avons vu deux façons de vérifier si les données ou l'objet donné sont un RDD ou DataFrame à l'aide d'IsInstance () et de Type (). Vous devez noter que Isinstance () se traduit par des valeurs booléennes en fonction de l'objet donné - si le type d'objet est le même, il renverra vrai, sinon faux. Et type () est utilisé pour retourner la classe des données ou objet donnés.