3 votes

spark dataframe null value count

Demandé el 7 de Septembre, 2017: Quand la question a-t-elle été
861 affichage: Nombre de visites la question a
0 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Je suis nouveau dans spark et je veux calculer le taux de nullité de chaque colonne,(j'ai 200 colonnes), ma fonction est la suivante :

def nullCount(dataFrame: DataFrame): Unit = {
val args = dataFrame.columns.length
val cols = dataFrame.columns
val d=dataFrame.count()
println("Follows are the null value rate of each columns")
for (i <- Range(0,args)) {
  var nullrate = dataFrame.rdd.filter(r => r(i) == (-900)).count.toDouble / d
  println(cols(i), nullrate)
}

}

Mais je trouve que c'est trop lent, y a-t-il un moyen plus efficace de le faire ?

Demandé el 7 de Septembre, 2017 par Xiaolin ZHONG

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Afficher dans la langue originale

X