Je fais une tâche de régression - dois-je normaliser (ou mettre à l'échelle) les données pour randomForest (package R) ? Et est-il nécessaire de mettre également à l'échelle les valeurs cibles ? Et si - je veux utiliser la fonction d'échelle du package caret, mais je n'ai pas trouvé comment récupérer les données (dégrader, dénormaliser). Ne connaissez-vous pas une autre fonction (dans n'importe quel package) qui est utile à la normalisation/dénormalisation ? Merci, Milan
Réponses
Trop de publicités?La mise à l'échelle est effectuée pour normaliser les données afin que la priorité ne soit pas donnée à une fonctionnalité particulière. Le rôle de la mise à l'échelle est principalement important dans les algorithmes basés sur la distance et nécessitant une distance euclidienne.
Random Forest est un modèle arborescent et ne nécessite donc pas de mise à l'échelle des fonctionnalités.
Cet algorithme nécessite un partitionnement, même si vous appliquez la normalisation, le résultat serait le même.
Si vous allez ajouter des interactions à l'ensemble de données - c'est-à-dire qu'une nouvelle variable est une fonction d'autres variables (généralement une simple multiplication) et que vous ne sentez pas ce que représente cette nouvelle variable (vous ne pouvez pas l'interpréter), alors vous devez calculer cette variable en utilisant variables mises à l'échelle.