Comment obtenir l'accès au Row complet dans la fonction UDF de Spark ?

Question

Comment obtenir l'accès au Row complet dans la fonction UDF de Spark ?

Demandé el 10 de Décembre, 2019: Quand la question a-t-elle été
82 affichage: Nombre de visites la question a
1 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Nous utilisons une syntaxe SQL simple pour transformer les données et nous avons des fonctions UDF personnalisées. Exemple :

UDF_FUNCTION(String, Int)

Cette fonction pourrait produire des exceptions et nous voudrions fournir une erreur détaillée pour l'utilisateur. Dans la ligne, nous avons des informations sur le fichier et le row_id, c'est pourquoi nous voulons accéder à une ligne complète dans l'UDF mentionné pour fournir une erreur détaillée avec file_uuid et row_id par exemple. Quelqu'un a-t-il une idée à ce sujet ?

Gracias

Demandé el 10 de Décembre, 2019 par dytyniak

Answer 1

1 Réponses

Answer 2

3voto

EmiCareOfCell44 Points 1105

Vous pouvez utiliser struct pour envoyer toutes les colonnes à l'udf. Vous devez utiliser Rangée comme paramètre d'entrée dans la fonction anonyme de l'udf. Quelque chose comme l'exemple ci-dessous :

  def udf_full_row = udf { (row: Row) =>
    val your_transformed_int = (row.getAs[Int]("value as int") + 1)
    your_transformed_int
  }

  import org.apache.spark.sql.functions.{col, struct}

  val df_test : DataFrame = ???
  val cols_array = df_test.columns.map(col(_))

  df_test.withColumn("your_new_colun", udf_full_row(struct(cols_array: _*)))

Répondu el 10 de Décembre, 2019 par EmiCareOfCell44 (1105 Points )

Comment obtenir l'accès au Row complet dans la fonction UDF de Spark ?

Réponse

Questions en vedette

Top Tags

Prograide.com

Powered by:

Comment obtenir l'accès au Row complet dans la fonction UDF de Spark ?

Réponse

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: