Cette réponse peut être trop tard, mais il est intéressant de noter, de toute façon. GPU Ocelot [dont je suis l'un des principaux contributeurs] peut être compilé sans CUDA pilotes de périphérique [libcuda.so] installé si vous souhaitez utiliser l'Émulateur ou LLVM backends. Je l'ai montré dans l'émulateur sur les systèmes sans Gpu NVIDIA.
L'émulateur tente de mettre en œuvre fidèlement le PTX 1.4 et PTX 2.1 spécifications qui peuvent inclure des éléments plus anciens Gpu ne prennent pas en charge. La LLVM traducteur s'efforce de la correcte et efficace de la traduction de PTX x86 qui feront que CUDA un moyen efficace de programmation de Processeurs multicœurs ainsi que les Gpu. -deviceemu a été une fonctionnalité obsolète de CUDA pour assez un certain temps, mais la LLVM traducteur a toujours été plus rapide.
En outre, plusieurs exactitude les pions sont intégrés dans l'émulateur pour vérifier: aligné les accès à la mémoire, les accès à la mémoire partagée sont correctement synchronisés, et la mémoire globale du déréférencement accède à des zones de mémoire allouées. Nous avons également mis en place une ligne de commande interactive débogueur [2] inspiré en grande partie par gdb pour une seule étape à travers les noyaux CUDA, définir des points d'arrêt et points d'observation, etc... Ces outils ont été spécifiquement développés pour accélérer le débogage de programmes CUDA; vous pourriez trouver utile.
Désolé pour le Linux-seul aspect. Nous avons commencé un Windows branche [ainsi que d'un Mac OS X port] mais le génie fardeau est déjà assez grand pour le stress de nos activités de recherche. Si quelqu'un a des temps et de l'intérêt, ils veulent peut-être nous aider à fournir un soutien pour Windows!
Espérons que cette aide.
[1] GPU Ocelot - voir mon site web répertorié
[2] Ocelot Débogueur Interactif - http://forums.nvidia.com/index.php?showtopic=174820