J'utilise des scripts python scripts pour faire des statistiques. Une sorte de contenu de logs est comme ceci, je l'appelle A logs : chaque A logs a le format suivant :
[2012-09-12 12:23:33] SOME_UNIQ_ID filesize
un autre journal que j'appelle le journal B a le format suivant :
[2012-09-12 12:24:00] SOME_UNIQ_ID
J'ai besoin de compter combien d'enregistrements dans les journaux A sont également dans les journaux B, et d'obtenir l'écart de temps entre les deux enregistrements avec le même identifiant.Mon implémentation était de charger tous les temps et identifiants des journaux B dans une carte, puis d'itérer les journaux A pour vérifier si l'identifiant existait dans la carte.Le problème est que cela utilise trop de mémoire car j'ai presque 100 millions d'enregistrements dans les journaux B.Une suggestion pour améliorer les performances et l'utilisation de la mémoire ? Je vous remercie.