Comment automatiser la création de StructType pour passer un RDD à un DataFrame

Question

Comment automatiser la création de StructType pour passer un RDD à un DataFrame

Demandé el 15 de Novembre, 2016: Quand la question a-t-elle été
421 affichage: Nombre de visites la question a
1 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Je veux sauvegarder RDD en tant que fichier parquet. Pour ce faire, je passe RDD à DataFrame puis j'utilise une structure pour sauvegarder DataFrame en tant que fichier parquet :

    val aStruct = new StructType(Array(StructField("id",StringType,nullable = true),
                                       StructField("role",StringType,nullable = true)))
    val newDF = sqlContext.createDataFrame(filtered, aStruct)

La question est comment créer aStruct automatiquement pour toutes les colonnes en supposant qu'elles sont toutes de type StringType? De plus, que signifie nullable = true? Est-ce que cela signifie que toutes les valeurs vides seront substituées par Null ?

Demandé el 15 de Novembre, 2016 par duckertito

Answer 1

1 Réponses

Answer 2

4voto

evan.oman Points 4380

Pourquoi ne pas utiliser le toDF intégré ?

scala> val myRDD = sc.parallelize(Seq(("1", "roleA"), ("2", "roleB"), ("3", "roleC")))
myRDD: org.apache.spark.rdd.RDD[(String, String)] = ParallelCollectionRDD[60] at parallelize at :27

scala> val colNames = List("id", "role")
colNames: List[String] = List(id, role)

scala> val myDF = myRDD.toDF(colNames: _*)
myDF: org.apache.spark.sql.DataFrame = [id: string, role: string]

scala> myDF.show
+---+-----+
| id| role|
+---+-----+
|  1|roleA|
|  2|roleB|
|  3|roleC|
+---+-----+

scala> myDF.printSchema
root
 |-- id: string (nullable = true)
 |-- role: string (nullable = true)

scala> myDF.write.save("myDF.parquet")

Le nullable=true signifie simplement que la colonne spécifiée peut contenir des valeurs null (ce qui est particulièrement utile pour les colonnes de type int qui n'auraient normalement pas de valeur null -- Int n'a pas de NA ou de null).

Répondu el 15 de Novembre, 2016 par evan.oman (4380 Points )

Comment automatiser la création de StructType pour passer un RDD à un DataFrame

Réponse

Questions en vedette

Top Tags

Prograide.com

Powered by:

Comment automatiser la création de StructType pour passer un RDD à un DataFrame

Réponse

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: