3 votes

convertir une chaîne avec des nanosecondes en timestamp dans spark

Existe-t-il un moyen de convertir une valeur de timestamp avec des nano secondes en timestamp dans spark. Je reçois l'entrée d'un fichier csv et la valeur de l'horodatage est de format 12-12-2015 14:09:36.992415+01:00 . Voici le code que j'ai essayé.

val date_raw_data = List((1, "12-12-2015 14:09:36.992415+01:00"))

val dateraw_df = sc.parallelize(date_raw_data).toDF("ID", "TIMESTAMP_VALUE")

val ts = unix_timestamp($"TIMESTAMP_VALUE", "MM-dd-yyyy HH:mm:ss.ffffffz").cast("double").cast("timestamp")

val date_df = dateraw_df.withColumn("TIMESTAMP_CONV", ts).show(false)

Le résultat est

+---+-----------------------+---------------------+
|ID |TIMESTAMP_VALUE        |TIMESTAMP_CONV       |
+---+-----------------------+---------------------+
|1  |12-12-2015 14:09:36.992|null                 |
+---+-----------------------+---------------------+

J'ai pu convertir un horodateur en millisecondes en utilisant le format MM-dd-yyyy HH:mm:ss.SSS . Le problème vient des formats de nano seconde et de fuseau horaire.

2voto

hi-zir Points 19277

unix_timestamp ne fera pas l'affaire ici. Même si vous pouviez analyser la chaîne de caractères (AFAIK SimpleDateFormat ne fournit pas les formats requis), unix_timestamp n'a qu'une seconde précision (c'est moi qui souligne) :

def unix_timestamp(s: Column, p: String): Column

Convertit la chaîne de temps avec le motif donné (voir [ http://docs.oracle.com/javase/tutorial/i18n/format/simpleDateFormat.html ]) à l'horodatage Unix ( en secondes ), renvoyer null en cas d'échec.

Vous devez créer votre propre fonction pour analyser ces données. Une idée approximative :

import org.apache.spark.sql.functions._
import org.apache.spark.sql.Column

def to_nano(c: Column) = {
  val r = "([0-9]{2}-[0-9]{2}-[0-9]{4} [0-9]{2}:[0-9]{2}:[0-9]{2})(\\.[0-9]*)(.*)$"
  // seconds part
  (unix_timestamp(
    concat(
      regexp_extract($"TIMESTAMP_VALUE", r, 1),
      regexp_extract($"TIMESTAMP_VALUE", r, 3)
    ), "MM-dd-YYYY HH:mm:ssXXX"
  ).cast("decimal(38, 9)") + 
  // subsecond part
  regexp_extract($"TIMESTAMP_VALUE", r, 2).cast("decimal(38, 9)")).alias("value")
}

Seq("12-12-2015 14:09:36.992415+01:00").toDF("TIMESTAMP_VALUE")
  .select(to_nano($"TIMESTAMP_COLUMN").cast("timestamp"))
  .show(false)

// +--------------------------+
// |value                     |
// +--------------------------+
// |2014-12-28 14:09:36.992415|
// +--------------------------+

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X