J'exécute la forêt aléatoire en parallèle avec R
library(doMC)
registerDoMC()
x <- matrix(runif(500), 100)
y <- gl(2, 50)
Exécution parallèle (73 secondes)
rf <- foreach(ntree=rep(25000, 6), .combine=combine, .packages='randomForest') %dopar%
randomForest(x, y, ntree=ntree)
Exécution séquentielle (82 secondes)
rf <- foreach(ntree=rep(25000, 6), .combine=combine) %do%
randomForest(x, y, ntree=ntree)
En exécution parallèle, la génération de l'arbre est assez rapide (3 à 7 secondes), mais le reste du temps est consacré à la combinaison des résultats (option de combinaison). Ainsi, l'exécution parallèle ne vaut la peine que si le nombre d'arbres est vraiment élevé. Y a-t-il un moyen de modifier l'option "combiner" pour éviter tout calcul à chaque nœud dont je n'ai pas besoin et le rendre plus rapide ?
PS. Ce qui précède n'est qu'un exemple de données. Dans la réalité, j'ai environ 100 000 caractéristiques pour environ 100 observations.