Techniquement, le terme "EM" est un peu underspecified, mais je suppose que vous vous référez à la Gaussienne Mélange de Modélisation cluster de l'analyse technique, qui est une instance générale de l'EM principe.
En fait, EM analyse de cluster n'est pas un classificateur. Je sais que certaines personnes considèrent que le clustering pour être "classification non supervisée", mais en réalité, analyse de cluster est quelque chose de tout à fait différent.
La différence essentielle, et le grand malentendu classification gens ont toujours avec le cluster de l'analyse est que: dans le groupe analaysis, il n'y a pas de "bonne solution". C'est une connaissance de la découverte de la méthode, il est en fait destiné à trouver quelque chose de nouveau! Cela rend l'évaluation très difficile. Il est souvent évaluée en utilisant une classification de référence, mais qui n'est pas toujours le cas: la classification que vous avez peut ou peut ne pas refléter ce qui est dans les données.
Laissez-moi vous donner un exemple: vous avez un grand ensemble de données de clients, y compris les données sur le sexe. Une méthode qui divise l'ensemble de ces données dans "masculin" et "féminin" est optimale lorsque vous la comparez avec les classes existantes. Dans une "prédiction" façon de penser ce qui est bon, comme pour les nouveaux utilisateurs, vous pouvez maintenant prédire leur sexe. Dans une "découverte de connaissances" façon de penser c'est en fait mauvais, parce que vous avez envie de découvrir quelques nouvelles de la structure dans les données. Une méthode qui serait par exemple fractionner les données sur les personnes âgées et les enfants toutefois, score que le pire qu'il peut obtenir à l'égard des hommes/femmes de la classe. Cependant, que serait un excellent résultat de clustering (si l'âge n'a pas été donné).
Maintenant de retour à l'EM. Essentiellement, il suppose que vos données est composé de multiples normale multivariée des distributions (note que c'est un très hypothèse forte, en particulier lorsque vous corrigez le nombre de clusters!). Il essaie alors de trouver un local modèle optimal pour cette par alternance en améliorer le modèle et l'objet de l'affectation au modèle.
Pour de meilleurs résultats dans la classification contexte, choisir le nombre de clusters plus grand que le nombre de classes, ou même appliquer le regroupement de simples classes seulement (pour savoir si il y a une certaine structure au sein de la classe!).
Dites que vous voulez former un classificateur à dire à part "voitures", "vélo" et "trucks". Il est peu utile en supposant que les données composé d'exactement 3 les distributions normales. Cependant, on peut supposer qu' il n'y a plus d'un type de voitures (et de camions et de motos). Ainsi, au lieu de la formation d'un classificateur pour ces trois catégories, vous cluster de voitures, de camions et de motos dans les 10 clusters (ou peut-être 10 voitures, 3 camions et 3 vélos, peu importe), puis train à un classificateur à dire en dehors de ces 30 classes, puis de fusionner la classe de résultat dans les classes d'origine. Vous pouvez également découvrir qu'il y est un cluster qui est particulièrement difficile à classer, par exemple Trikes. Ils sont un peu les voitures, et un peu de vélos. Ou les camions de livraison, qui sont plus comme surdimensionné voitures que les camions.