55 votes

Comment interpréter la classification weka ?

Comment interpréter le résultat de la classification dans weka en utilisant les bayes naïves ?

Comment sont calculés la moyenne, l'écart-type, la somme des poids et la précision ?

Comment calcule-t-on la statistique de kappa, l'erreur absolue moyenne, l'erreur quadratique moyenne, etc. ?

Quelle est l'interprétation de la matrice de confusion ?

89voto

michaeltwofish Points 2378

Voici quelques exemples de résultats pour un classificateur Bayes naïf, utilisant une validation croisée 10 fois. Il y a beaucoup d'informations, et ce sur quoi vous devez vous concentrer dépend de votre application. Je vais expliquer certains des résultats ci-dessous, pour vous aider à démarrer.

=== Stratified cross-validation ===
=== Summary ===

Correctly Classified Instances          71               71      %
Incorrectly Classified Instances        29               29      %
Kappa statistic                          0.3108
Mean absolute error                      0.3333
Root mean squared error                  0.4662
Relative absolute error                 69.9453 %
Root relative squared error             95.5466 %
Total Number of Instances              100     

=== Detailed Accuracy By Class ===

               TP Rate   FP Rate   Precision   Recall  F-Measure   ROC Area  Class
                 0.967     0.692      0.686     0.967     0.803      0.709    0
                 0.308     0.033      0.857     0.308     0.453      0.708    1
Weighted Avg.    0.71      0.435      0.753     0.71      0.666      0.709

=== Confusion Matrix ===

  a  b   <-- classified as
 59  2 |  a = 0
 27 12 |  b = 1

Les instances correctement et incorrectement classées montrent le pourcentage d'instances de test qui ont été correctement et incorrectement classées. Les nombres bruts sont indiqués dans la matrice de confusion, avec a et b représentant les étiquettes de classe. Ici, il y avait 100 instances, donc les pourcentages et les nombres bruts s'additionnent, aa + bb = 59 + 12 = 71, ab + ba = 27 + 2 = 29.

Le pourcentage d'instances correctement classées est souvent appelé précision ou précision de l'échantillon. Elle présente quelques inconvénients en tant qu'estimation de la performance (elle n'est pas corrigée par le hasard et n'est pas sensible à la distribution des classes), c'est pourquoi vous voudrez probablement examiner d'autres chiffres. L'aire ROC, ou aire sous la courbe ROC, est ma mesure préférée.

Kappa est une mesure corrigée par le hasard de la concordance entre les classifications et les classes réelles. Il est calculé en prenant la concordance attendue par hasard et en la divisant par la concordance maximale possible. Une valeur supérieure à 0 signifie que votre classificateur fait mieux que le hasard (il devrait vraiment le faire !).

Les taux d'erreur sont utilisés pour la prédiction numérique plutôt que pour la classification. Dans la prédiction numérique, les prédictions ne sont pas seulement justes ou fausses, l'erreur a une magnitude, et ces mesures reflètent cela.

J'espère que cela vous aidera à démarrer.

29voto

Hybrid System Points 325

Pour développer la réponse de michaeltwofish, quelques notes sur les valeurs restantes :

  • Taux de TP taux de vrais positifs (instances correctement classées comme une classe donnée)

  • Taux de FP taux de faux positifs (instances faussement classées comme une classe donnée)

  • Précision : proportion d'instances qui appartiennent vraiment à une classe divisée par le total des instances classées dans cette classe

  • Rappel : proportion d'instances classées dans une classe donnée divisée par le total réel dans cette classe (équivalent au taux de TP)

  • Mesure F : Une mesure combinée de la précision et du rappel calculée comme suit : 2 * Précision * Rappel / (Précision + Rappel)

En ce qui concerne la mesure de la zone ROC, je suis d'accord avec michaeltwofish pour dire que c'est l'une des valeurs les plus importantes produites par Weka. Un classificateur "optimal" aura des valeurs de zone ROC proches de 1, avec 0,5 étant comparable à une "supposition aléatoire" (similaire à une statistique Kappa de 0).

Il convient de noter que l'"équilibre" de l'ensemble des données doit être pris en compte lors de l'interprétation des résultats. Des ensembles de données déséquilibrés, dans lesquels un nombre disproportionné d'instances appartiennent à une certaine classe, peuvent conduire à des taux de précision élevés, même si le classificateur n'est pas nécessairement particulièrement bon.

Pour en savoir plus :

2voto

frank Points 387

Qu'est-ce que Naive Bayes ?

Le présent explication pourrait aider à clarifier ce que Naive Bayes moyens ; elle suppose l'indépendance des variables. Concrètement, supposons que nous voulions prédire si une personne a traversé Prospect Park à Brooklyn. Nous disposons de données permettant de savoir si cette personne a

a) vivre à New York

b) vivre dans une ville

Naive Bayes suppose que ces deux variables sont indépendantes. Mais il est clair que s'ils vivent à New York, ils vivent aussi à a ville. Cet exemple est stupide car (espérons-le) personne n'utilisera jamais la science des données avec ces variables, mais il montre ce que signifie l'indépendance. Si a, alors b. De même, si pas b, alors pas a.

Il y a dépendance, donc Naïf La méthode de Bayes naïf ne tient pas.

Tutoriel Weka

Cette page peut être utile aux débutants. Il m'aide beaucoup ; il passe en revue

Je ne suis pas affilié à Jason Brownlee. Il a l'air un peu vendeur, mais l'avantage est qu'il reste simple puisqu'il s'adresse aux débutants

0voto

user5001496 Points 1

Il donne une valeur de "50050000" pour certains algorithmes alors que pour d'autres classificateurs, ces valeurs sont de l'ordre de 49,7, 87,4, 98,2, etc.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X