J'ai un RDD[(String,Array[String])] et j'ai besoin de répliquer les données à l'intérieur pour en augmenter la taille.
J'ai lu ici https://stackoverflow.com/a/41787801/9759150 avec replacemente vous pouvez obtenir deux fois le même élément dans l'échantillon.
Par exemple :
Si RDD.count() est, disons, de 35 éléments, et que je dois générer à partir de celui-ci un RDD de 200 éléments. Comment puis-je faire cela ?
J'ai vu que l'échantillon d'application est comme ça :
val sampledRDD = rdd.sample(true, fraction, seed)
Je ne sais pas comment choisir fraction
paramètre à mon problème.
Merci !