3 votes

Exportation de la sortie du modèle Mahout comme entrée Weka

J'aimerais utiliser le modèle de sortie d'un processus de formation d'arbre de décision Mahout comme modèle d'entrée pour un classificateur basé sur Weka.

Comme l'entraînement d'un arbre de décision complexe basé sur des millions d'enregistrements d'entraînement est presque irréalisable pour un classificateur Weka à un seul nœud, j'aimerais utiliser Mahout pour construire le modèle, en utilisant, par exemple, les éléments suivants Implémentation partielle de Random Forest .

Bien que l'algorithme ci-dessus puisse poser des problèmes lors de l'apprentissage, il est assez simple de l'utiliser pour la prédiction avec Weka sur une seule machine.

Sur Mahout site wiki il est indiqué que les formats de données pour l'importation incluent le format Weka ARFF, mais pas pour l'exportation.

Est-il possible d'utiliser certaines des implémentations existantes en Mahout s'entraîne les modèles qui seront utilisés dans avec un simple Weka un système basé sur la technologie ?

1voto

kaz Points 665

Je ne pense pas qu'il soit possible de faire ce que vous demandez : .arff est un format de données, comme le sont toutes les autres options des menus d'importation/exportation. Les classificateurs que Weka peut sauvegarder/charger sont, en fait, les classificateurs java de Weka. Classifier écrites dans un fichier à l'aide de la fonction Serializable l'interface. Ce ne sont pas tant des arbres portables que des objets Java qui durent plus longtemps que les JVM qui les créent. Ainsi, pour faire ce que vous voulez, Mahout ou Weka devraient être capables de produire/lire le code de l'autre, et ce n'est pas quelque chose dont je peux trouver la documentation.

D'après mon expérience, avec plusieurs millions d'enregistrements d'entraînement (composés de ~45 caractéristiques numériques/colonnes chacun), l'implémentation Random Forest de Weka utilisant les options par défaut est très rapide (fonctionnant en quelques secondes sur un seul cœur de 2,26 GHz), il n'est donc peut-être pas nécessaire de s'embêter avec Mahout. Votre ensemble de données peut cependant donner des résultats différents.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X