Lecture d'anciennes données dans Spark avec un schéma rétrocompatible

Question

Lecture d'anciennes données dans Spark avec un schéma rétrocompatible

Demandé el 7 de Novembre, 2017: Quand la question a-t-elle été
207 affichage: Nombre de visites la question a
1 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

J'ai déjà des données anciennes stockées en parquet avec un schéma représenté par

case class A(name: String)

J'aimerais ajouter un nouveau champ non obligatoire dans la rubrique

case class B(name: String, age: Option[Int])

et lire les anciennes et les nouvelles données dans le même fichier. DataFrame . A chaque fois que j'essaie de lire les données avec spark.read.parquet("test_path").as[B].collect() J'obtiens l'exception suivante :

Exception dans le thread "main" org.apache.spark.sql.AnalysisException : cannot resolve '``age`' given input columns : [name] ;

Existe-t-il un moyen de spécifier un schéma rétrocompatible pour toutes mes données ?

Demandé el 7 de Novembre, 2017 par kosii

Answer 1

1 Réponses

Answer 2

2voto

kosii Points 1342

Pour lire des données plus anciennes avec un schéma rétrocompatible, il ne suffit pas de spécifier le nouvel élément Encoder vous devez spécifier manuellement un StructType pour le DataSet et ne laissez pas Spark le déduire en se basant sur l'un ou l'autre des éléments. De cette façon, il n'y aura pas de champs manquants lors de la conversion en un fichier de type DataFrame :

spark.read.schema(Encoders.product[B].schema).parquet("test").as[B].collect()

Répondu el 7 de Novembre, 2017 par kosii (1342 Points )

Lecture d'anciennes données dans Spark avec un schéma rétrocompatible

Réponse

Questions en vedette

Top Tags

Prograide.com

Powered by:

Lecture d'anciennes données dans Spark avec un schéma rétrocompatible

Réponse

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: