Je pense que les autres ont répondu à votre deuxième question. Comme pour la première, le "Hello World" de CUDA, je ne pense pas qu'il y est un ensemble standard, mais personnellement, je recommanderais un additionneur parallèle (c'est à dire un programme qui calcule la somme de N entiers).
Si vous regardez la "réduction" par exemple dans le SDK NVIDIA, la superficiellement tâche simple peut être étendue à la démonstration de nombreux CUDA considérations telles que coalisées lit, la banque de mémoire des conflits et le déroulement de la boucle.
Voir cette présentation pour plus d'info:
http://www.gpgpu.org/sc2007/SC07_CUDA_5_Optimization_Harris.pdf