101 votes

Dois-je normaliser (ou mettre à l'échelle) les données pour randomForest (package R) ?

Je fais une tâche de régression - dois-je normaliser (ou mettre à l'échelle) les données pour randomForest (package R) ? Et est-il nécessaire de mettre également à l'échelle les valeurs cibles ? Et si - je veux utiliser la fonction d'échelle du package caret, mais je n'ai pas trouvé comment récupérer les données (dégrader, dénormaliser). Ne connaissez-vous pas une autre fonction (dans n'importe quel package) qui est utile à la normalisation/dénormalisation ? Merci, Milan

34voto

shaurya uppal Points 542

La mise à l'échelle est effectuée pour normaliser les données afin que la priorité ne soit pas donnée à une fonctionnalité particulière. Le rôle de la mise à l'échelle est principalement important dans les algorithmes basés sur la distance et nécessitant une distance euclidienne.

Random Forest est un modèle arborescent et ne nécessite donc pas de mise à l'échelle des fonctionnalités.

Cet algorithme nécessite un partitionnement, même si vous appliquez la normalisation, le résultat serait le même.

1voto

Qbik Points 728

Si vous allez ajouter des interactions à l'ensemble de données - c'est-à-dire qu'une nouvelle variable est une fonction d'autres variables (généralement une simple multiplication) et que vous ne sentez pas ce que représente cette nouvelle variable (vous ne pouvez pas l'interpréter), alors vous devez calculer cette variable en utilisant variables mises à l'échelle.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X