J'ai une question concernant la conception. J'ai un fichier de données de 3 à 4 Go, classé par horodatage. J'essaie de trouver la meilleure façon de traiter ce fichier.
Je pensais lire tout ce fichier dans la mémoire, puis transmettre ces données à différentes machines et exécuter mon analyse sur ces machines.
Serait-il judicieux de télécharger ces données dans une base de données avant d'effectuer mon analyse ?
J'ai l'intention d'effectuer mon analyse sur différentes machines. Il serait donc plus facile de le faire via la base de données, mais si j'augmente le nombre de machines sur lesquelles j'effectue mon analyse, la base de données risque de devenir trop lente.
Des idées ?
@update :
Je veux traiter les enregistrements un par un. En fait, j'essaie d'exécuter un modèle sur des données d'horodatage, mais comme j'ai plusieurs modèles, je veux les répartir de manière à ce que l'ensemble du processus s'exécute chaque jour pendant la nuit. Je veux m'assurer que je peux facilement augmenter le nombre de modèles sans diminuer les performances du système. C'est pourquoi je prévois de distribuer les données à toutes les machines qui exécutent le modèle (chaque machine exécutera un seul modèle).