88 votes

Application efficace d'une fonction à un DataFrame groupé de pandas en parallèle

J'ai souvent besoin d'appliquer une fonction à l'groupes d'une très grande DataFrame (mixte types de données) et voudrais profiter de plusieurs cœurs.

Je peux créer un itérateur de groupes et d'utiliser le module multiprocessing, mais il n'est pas efficace, car chaque groupe et les résultats de la fonction doit être nettoyée pour la messagerie entre les processus.

Est-il un moyen d'éviter le décapage ou même pour éviter la copie de la DataFrame complètement? Il ressemble à la mémoire partagée les fonctions du multitraitement modules sont limités à des tableaux Numpy. Existe-il d'autres options?

5voto

user3222893 Points 51

Essayez de lire ce numéro de github sur la parallélisation.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X