3 votes

spark dataframe null value count

Je suis nouveau dans spark et je veux calculer le taux de nullité de chaque colonne,(j'ai 200 colonnes), ma fonction est la suivante :

def nullCount(dataFrame: DataFrame): Unit = {
val args = dataFrame.columns.length
val cols = dataFrame.columns
val d=dataFrame.count()
println("Follows are the null value rate of each columns")
for (i <- Range(0,args)) {
  var nullrate = dataFrame.rdd.filter(r => r(i) == (-900)).count.toDouble / d
  println(cols(i), nullrate)
}

}

Mais je trouve que c'est trop lent, y a-t-il un moyen plus efficace de le faire ?

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X