Je fais beaucoup de travaux statistiques et d'utiliser Python comme ma langue. Certains des ensembles de données qui je travaille que peut prendre de 20 go de mémoire, ce qui rend d'exploitation à l'aide-mémoire des fonctions de numpy, scipy, et PyIMSL presque impossible. L'analyse statistique de la langue SAS a un gros avantage qu'il peut fonctionner sur des données à partir du disque dur, par opposition à strictement traitement en mémoire. Mais, je veux éviter d'avoir à écrire beaucoup de code dans le SAS (pour diverses raisons) et je suis donc d'essayer de déterminer quelles sont les options que j'ai avec Python (en plus de l'achat du matériel et de la mémoire).
Je me dois de préciser que les approches réduire la carte ne va pas aider dans une grande partie de mon travail parce que j'ai besoin de fonctionner sur complète des ensembles de données (par exemple, le calcul de quantiles ou le montage d'un modèle de régression logistique).
Récemment, j'ai commencé à jouer avec h5py et pense que c'est la meilleure option que j'ai trouvé pour Python permettant d'agir comme SAS et opèrent sur des données à partir du disque (via hdf5 fichiers), tout en étant capable de tirer parti de numpy/scipy/matplotlib, etc. J'aimerais savoir si quelqu'un a de l'expérience à l'aide de Python et h5py dans ce type de configuration et de ce qu'ils ont trouvé. Quelqu'un a été en mesure d'utiliser Python dans les "big data" paramètres jusque-là dominé par la SAS?
EDIT: Acheter plus de matériel/de la mémoire peut certainement aider, mais à partir d'un point de vue informatique, il est difficile pour moi de vendre Python pour une organisation qui a besoin d'analyser d'énormes ensembles de données lors de Python (ou R ou MATLAB, etc) doivent contenir des données de la mémoire. SAS continue à avoir un solide argument de vente ici, parce que, tandis que sur disque analytique peut être plus lent, vous pouvez en toute confiance faire face à d'énormes ensembles de données. Donc, je suis en espérant que Stackoverflow-ers peut m'aider à comprendre comment réduire le risque perçu autour de l'utilisation de Python comme un pilier de la grand-analyse des données de la langue.