Supposons que je travaille sur un problème de classification. (La détection de fraudes et le spam de commentaires sont deux problèmes sur lesquels je travaille en ce moment, mais je suis curieux de toute tâche de classification en général).
Comment savoir quel classificateur je dois utiliser ?
- Arbre de décision
- SVM
- Bayesien
- Réseau neuronal
- K-voisins les plus proches
- Q-learning
- Algorithme génétique
- Processus de décision de Markov
- Réseaux neuronaux convolutifs
- Régression linéaire ou régression logistique
- Boosting, bagging, ensambling
- Montée en pente aléatoire ou recuit simulé
- ...
Dans quels cas l'un d'entre eux est-il le premier choix "naturel", et quels sont les principes de ce choix ?
Exemples du type de réponses que je recherche (tirés de l'étude de Manning et al. Introduction à la recherche d'informations livre) :
a. Si vos données sont étiquetées, mais que vous n'en avez qu'une quantité limitée, vous devez utiliser un classificateur avec un biais élevé (par exemple, Naive Bayes). .
Je suppose que c'est parce qu'un classificateur à biais élevé aura une variance plus faible, ce qui est une bonne chose en raison de la petite quantité de données.
b. Si vous disposez d'une tonne de données, le classificateur n'a pas vraiment d'importance, et vous devriez probablement choisir un classificateur offrant une bonne évolutivité.
-
Quelles sont les autres directives ? Même des réponses telles que "si vous devez expliquer votre modèle à un cadre supérieur, vous devriez peut-être utiliser un arbre de décision, car les règles de décision sont assez transparentes" sont bonnes. Je me soucie moins des questions de mise en œuvre/librairie, cependant.
-
Par ailleurs, pour une question quelque peu distincte, outre les classificateurs bayésiens standard, existe-t-il des méthodes "standard de pointe" pour la détection du spam dans les commentaires (par opposition au spam par courriel) ?
10 votes
En réponse à votre question "le meilleur endroit pour poser cette question", vous pourriez également vouloir essayer stats.stackexchange.com
0 votes
github.com/niektuytel/Machine_Learning/tree/main