Vous seriez surpris d'apprendre que le rapport 80/20 est un rapport assez courant, souvent appelé le Le principe de Pareto . C'est généralement un pari sûr si vous utilisez ce ratio.
Cependant, selon la méthodologie de formation/validation que vous utilisez, le ratio peut changer. Par exemple, si vous utilisez une validation croisée à 10 niveaux, vous obtiendrez un ensemble de validation de 10 % à chaque niveau.
Des recherches ont été menées sur quel est le bon rapport entre l'ensemble d'apprentissage et l'ensemble de validation ? :
La fraction de motifs réservée à l'ensemble de validation doit être de inversement proportionnelle à la racine carrée du nombre de patrons libres. paramètres réglables.
Dans leur conclusion, ils précisent une formule :
Le rapport de taille entre l'ensemble de validation (v) et l'ensemble d'apprentissage (t), v/t, s'échelonne comme suit ln(N/h-max), où N est le nombre de familles de reconnaissances et h-max est la plus grande complexité de ces familles.
Ce qu'ils entendent par complexité est :
Chaque famille de reconnaissances est caractérisée par sa complexité, qui est la suivante peut ou non être liée à la Dimension VC la description longueur de la description, le nombre de paramètres réglables, ou d'autres mesures de la complexité.
En prenant la première règle empirique (c'est-à-dire que l'ensemble de validation devrait être inversement proportionnel à la racine carrée du nombre de paramètres ajustables libres), vous pouvez conclure que si vous avez 32 paramètres ajustables, la racine carrée de 32 est ~5,65, la fraction devrait être 1/5,65 ou 0,177 (v/t). En gros, 17,7% devraient être réservés à la validation et 82,3% à la formation.