Si je suis en train de former un SVM sur un grand ensemble d'entraînement et si la variable de classe est soit Vraie soit Fausse, est-ce que le fait d'avoir très peu de valeurs Vraies par rapport au nombre de valeurs Fausse dans l'ensemble d'entraînement affecterait le modèle/résultats d'entraînement ? Doivent-elles être égales ? Si mon ensemble d'entraînement n'a pas une distribution égale de Vrai et de Faux, comment puis-je y remédier de manière à ce que mon entraînement soit aussi efficace que possible ?
Réponses
Trop de publicités?Il est bon d'avoir des données déséquilibrées, car la SVM devrait être capable d'attribuer une plus grande pénalité aux erreurs de classification liées à l'instance moins probable (par exemple, "True" dans votre cas), plutôt que d'attribuer un poids d'erreur égal qui donne lieu au classifieur indésirable qui attribue tout à la majorité. Cependant, vous obtiendrez probablement de meilleurs résultats avec des données équilibrées. Tout dépend vraiment de vos données.
Vous pourriez biaiser les données artificiellement pour obtenir des données plus équilibrées. Pourquoi ne pas consulter cet article : http://pages.stern.nyu.edu/~fprovost/Papers/skew.PDF.
Mon expérience est que les classificateurs SVM standard ne fonctionnent pas vraiment bien sur des données déséquilibrées. J'ai rencontré cela pour le C-SVM et c'est encore pire pour le nu-SVM. Peut-être que vous voulez jeter un coup d'œil à P-SVM qui offre un mode particulièrement adapté aux données déséquilibrées.