Si vous êtes vraiment limité par le calcul, l'utilisation de l'option module multiprocesseur est probablement la solution la plus légère (tant en termes de consommation de mémoire que de difficulté de mise en œuvre).
Si vous êtes lié aux E/S, l'utilisation de l'option module d'enfilage vous donnera généralement de bons résultats. Assurez-vous d'utiliser un stockage thread safe (comme la Queue) pour transmettre les données à vos threads. Ou bien remettez-leur un seul élément de données qui leur est propre lorsqu'ils sont créés.
PyPy est axé sur la performance. Il dispose d'un certain nombre de fonctionnalités qui peuvent aider au traitement lié au calcul. Il prend également en charge la mémoire transactionnelle logicielle, bien qu'elle ne soit pas encore de qualité industrielle. La promesse est que vous pouvez utiliser des mécanismes parallèles ou simultanés plus simples que le multiprocessing (qui a quelques exigences gênantes).
Python sans queue ni tête est également une bonne idée. Stackless a des problèmes de portabilité comme indiqué ci-dessus. Hirondelle libre était prometteur, mais il est aujourd'hui défunt. Pyston est une autre implémentation (inachevée) de Python axée sur la vitesse. Elle adopte une approche différente de celle de PyPy, ce qui peut donner lieu à des gains de vitesse meilleurs (ou simplement différents).