Je voudrais faire de la modélisation thématique LDA sur un corpus de 9 Go. Le plan est d'entraîner le modèle LDA en utilisant MALLET pour 1000 itérations avec 100 sujets, en optimisant les hyperparamètres toutes les 10 itérations après une période de burn-in de 200 itérations. Je travaille sur Win8 64 bits, l'ordinateur a 16 Go de RAM, un processeur Intel® Core™ i7-4720HQ. Quelqu'un peut-il me dire combien de temps je dois m'attendre à ce que cela prenne ? S'agit-il d'heures ou de jours ? C'est la première question que je pose ici, donc si j'ai sauté des infos importantes, merci de me le faire savoir.
Réponses
Trop de publicités?La durée exacte variera en fonction de la complexité du corpus. L'échantillonnage commencera à être plus rapide lorsque le modèle commencera à mieux s'adapter, puisque l'incertitude diminuera. Je dirais que le temps nécessaire pour obtenir un bon modèle est de l'ordre d'une journée.
L'importation des données est peut-être la partie la plus difficile. La commande "bulkload" est conçue pour réduire l'empreinte mémoire des importations qui consistent en un grand fichier avec un document par ligne. Cette commande permet également d'élaguer le vocabulaire en fonction de la fréquence des mots.
Pour un corpus de cette taille avec optimisation des hyperparamètres, envisagez d'utiliser davantage de sujets. L'utilisation de 500 sujets ne prendra probablement pas plus de temps que celle de 100 sujets, pour la même raison que l'échantillonnage sera plus rapide au fur et à mesure que le modèle s'ajuste mieux.