J'ai de grandes quantités de données (quelques téraoctets) et accumule... Ils sont présents dans de nombreux délimité par des tabulations à plat des fichiers texte (chacune d'environ 30 MO). La plupart de la tâche consiste à lire les données et de l'agrégation (résumé/moyenne + de transformations supplémentaires) sur des observations ou des lignes en fonction d'une série de prédicat états, et enregistrer le résultat en tant que texte, HDF5, SQLite ou des fichiers, etc. J'ai l'habitude de l'utilisation de R pour de telles tâches, mais j'ai peur de ce qui peut être un peu grand. Certaines solutions sont à
- écrire le tout en C (ou Fortran)
- importer les fichiers (tables) dans un base de données relationnelle directement et retirez ensuite les morceaux dans R ou Python (certains de ces transformations ne sont pas prête pour un pur SQL solutions)
- écrire le tout en Python
Serait (3) être une mauvaise idée? Je sais que vous pouvez envelopper les routines C en Python, mais dans ce cas puisqu'il n'y a rien de calcul prohibitif (par exemple, l'optimisation des routines qui nécessitent de nombreux calculs itératifs), je pense que les e/S peuvent être autant d'un goulot d'étranglement que le calcul lui-même. Avez-vous des recommandations sur d'autres considérations ou des suggestions? Merci
Edit Merci pour vos réponses. Il semble y avoir des divergences d'opinion sur Hadoop, mais en tout cas je n'ai pas accès à un cluster (si je peux l'utiliser plusieurs unnetworked machines)...