Réduction de la somme avec CUDA : Qu'est-ce que N ?

Question

Réduction de la somme avec CUDA : Qu'est-ce que N ?

Demandé el 18 de Novembre, 2011: Quand la question a-t-elle été
7674 affichage: Nombre de visites la question a
1 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Selon NVIDIA, cette est le noyau de réduction de la somme le plus rapide :

template <unsigned int blockSize>
__device__ void warpReduce(volatile int *sdata, unsigned int tid) {
if (blockSize >=  64) sdata[tid] += sdata[tid + 32];
if (blockSize >=  32) sdata[tid] += sdata[tid + 16];
if (blockSize >=  16) sdata[tid] += sdata[tid +  8];
if (blockSize >=    8) sdata[tid] += sdata[tid +  4];
if (blockSize >=    4) sdata[tid] += sdata[tid +  2];
if (blockSize >=    2) sdata[tid] += sdata[tid +  1];
}
template <unsigned int blockSize>
__global__ void reduce6(int *g_idata, int *g_odata, unsigned int n) {
extern __shared__ int sdata[];
unsigned int tid = threadIdx.x;
unsigned int i = blockIdx.x*(blockSize*2) + tid;
unsigned int gridSize = blockSize*2*gridDim.x;
sdata[tid] = 0;
while (i < n) { sdata[tid] += g_idata[i] + g_idata[i+blockSize];  i += gridSize;  }
__syncthreads();
if (blockSize >= 512) { if (tid < 256) { sdata[tid] += sdata[tid + 256]; } __syncthreads(); }
if (blockSize >= 256) { if (tid < 128) { sdata[tid] += sdata[tid + 128]; } __syncthreads(); }
if (blockSize >= 128) { if (tid <   64) { sdata[tid] += sdata[tid +   64]; } __syncthreads(); }
if (tid < 32) warpReduce(sdata, tid);
if (tid == 0) g_odata[blockIdx.x] = sdata[0];
}

Cependant, je ne comprends pas le paramètre "n". Des indices ? Je ne pense pas que ce soit la taille du tableau qu'il faille réduire, puisque dans la boucle while il y aurait un débordement de tampon.

Demandé el 18 de Novembre, 2011 par omegatai

Answer 1

1 Réponses

Answer 2

7voto

Jared Hoberock Points 5955

Je crois que vous avez découvert une faute de frappe dans les diapositives (il faudrait probablement dire quelque chose comme while(i + blockDim.x < n) ).

Si vous jetez un coup d'œil au code source de l'exemple CUDA SDK "réduction" , le corps de l'article le plus récent reduce6 ressemble à ceci :

template <class T, unsigned int blockSize, bool nIsPow2>
__global__ void
reduce6(T *g_idata, T *g_odata, unsigned int n)
{
    T *sdata = SharedMemory<T>();

    // perform first level of reduction,
    // reading from global memory, writing to shared memory
    ...

    T mySum = 0;

    // we reduce multiple elements per thread.  The number is determined by the 
    // number of active thread blocks (via gridDim).  More blocks will result
    // in a larger gridSize and therefore fewer elements per thread
    while (i < n)
    {         
        mySum += g_idata[i];
        // ensure we don't read out of bounds -- this is optimized away for powerOf2 sized arrays
        if (nIsPow2 || i + blockSize < n) 
            mySum += g_idata[i+blockSize];  
        i += gridSize;
    }

Notez la vérification explicite dans le while qui empêche l'accès hors limites à g_idata . Vos premiers soupçons sont corrects ; n est simplement la taille du g_idata de la gamme.

Répondu el 18 de Novembre, 2011 par Jared Hoberock (5955 Points )

Réduction de la somme avec CUDA : Qu'est-ce que N ?

Réponse

Questions en vedette

Top Tags

Prograide.com

Powered by:

Réduction de la somme avec CUDA : Qu'est-ce que N ?

Réponse

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: