100 votes

Grand DataFrame persistant dans pandas

En tant qu'utilisateur de longue date de SAS, j'envisage de passer à python et à pandas.

Cependant, lors de l'exécution de certains tests aujourd'hui, j'ai été surpris de constater que python manquait de mémoire lorsqu'il essayait de pandas.read_csv() un fichier csv de 128mb. Il comportait environ 200 000 lignes et 200 colonnes de données essentiellement numériques.

Avec SAS, je peux importer un fichier csv dans un ensemble de données SAS et celui-ci peut être aussi grand que mon disque dur.

Y a-t-il quelque chose d'analogue dans pandas ?

Je travaille régulièrement avec des fichiers volumineux et je n'ai pas accès à un réseau informatique distribué.

0 votes

Je ne suis pas familier avec pandas, mais vous pourriez envisager d'itérer dans le fichier. pandas.pydata.org/pandas-docs/stable/

1voto

Elm662 Points 144

Vous pouvez utiliser Pytable plutôt que pandas df. Il est conçu pour les grands ensembles de données et le format de fichier est en hdf5. Le temps de traitement est donc relativement rapide.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X