/normxcorr/trunk : revision 10

To get this branch, use:

bzr branch
http://suren.me/webbzr/normxcorr/trunk

« back to all changes in this revision

Viewing changes to cuda/normxcorr_hw_kernel.cu

Committer: Suren A. Chilingaryan
Date: 2009-12-10 03:16:21 UTC
Revision ID: csa@dside.dyndns.org-20091210031621-2a15m2tdumdz3s39

Block computational kernels

files modified:
cuda/Makefile

cuda/normxcorr_hw.cu

cuda/normxcorr_hw.h

cuda/normxcorr_hw_kernel.cu

Show diffs side-by-side

added added

removed removed

cuda/normxcorr_hw_kernel.cu

static __global__ void vecMul(cuComplex *a, cuComplex *b, int size) {

static __global__ void vecMul(cuComplex *a, cuComplex *b, int pitch, int size) {

float tmp;

int i = threadIdx.x + blockIdx.x*size;

int point = blockIdx.y * blockDim.y + threadIdx.y;

int i = threadIdx.x + blockIdx.x * blockDim.x + point*pitch;

tmp = a[i].x * b[i].x - a[i].y * b[i].y;

a[i].y = a[i].x * b[i].y + a[i].y * b[i].x;

a[i].x = tmp;

}

static __global__ void vecPack(uint8_t *b, int bsize, cufftReal *a, int asize, int size) {

// int i = threadIdx.x + blockIdx.x*bsize;

// int i = bsize - threadIdx.x - 1 + (bsize - blockIdx.x - 1)*bsize;

// Invalid memory access (possibly)

// int i = (bsize - blockIdx.x)*bsize - threadIdx.x - 1;

int i = size - threadIdx.x - 1 + (size - blockIdx.x - 1)*bsize;

a[threadIdx.x + asize*blockIdx.x] = b[i];

}

static __global__ void vecPack(uint8_t *b, int bpitch, int bsize, cufftReal *a, int apitch, int asize, int size, int blocks_size) {

// Includes rotation on 180 grad

int point = blockIdx.y * blockDim.y + threadIdx.y;

//__fdiv_rz(pos / bsize)

int y = __float2int_rz(__fdividef(blockIdx.x, blocks_size));

int x = (blockIdx.x - y * blocks_size) * blockDim.x + threadIdx.x ;

int pos = blockIdx.x * blockDim.x + threadIdx.x;

int y = pos / (blocks_size * blockDim.x);

int x = pos - (y * blocks_size * blockDim.x);

if ((x < size)&&(y < size)) {

int i = (size - y - 1)*bsize + size - x - 1;

a[point * apitch + y * asize + x] = b[point * bpitch + i];

}

static __global__ void vecPackFast(uint8_t *b, int bpitch, int bsize, cufftReal *a, int apitch, int asize, int size, int blocks_shift) {

__shared__ float data[CP_BLOCK_SIZE][SIDE_BLOCK_SIZE + 1];

int point = blockIdx.y * blockDim.y + threadIdx.y;

int y = blockIdx.x>>blocks_shift;

int bx = (blockIdx.x - (y<<blocks_shift)) * blockDim.x ;

int x = bx + threadIdx.x;

// int x = (blockIdx.x - (y<<blocks_shift)) * blockDim.x + threadIdx.x ;

// threadIdx.x depends only on x

data[threadIdx.y][threadIdx.x] = b[point * bpitch + y * bsize + x];

__syncthreads();

int pos = size - bx - blockDim.x + threadIdx.x;

if ((pos>=0)&&(y < size)) {

a[point * apitch + (size - y - 1) * asize + pos] =

data[threadIdx.y][blockDim.x - threadIdx.x - 1];

}

// if ((x < size)&&(y < size)) {

// int i = (size - y - 1)*bsize + size - x - 1;

// a[point * apitch + y * asize + x] = b[point * bpitch + i];

// }

}

static __global__ void vecPackBase(

uint8_t *b, int bsize,

130

cufftReal *corr, float corr_scale,

131

float *lsum, float *lsum_scale_ptr, float lsum_mult,

132

float *denom, float *denom_scale_ptr,

int size

133

int pitch, int size

134

) {

int pos = threadIdx.x + blockIdx.x*size;

float lsum_scale = (*lsum_scale_ptr) * lsum_mult;

float denom_scale = (*denom_scale_ptr);

135

// int pos = threadIdx.x + blockIdx.x*size;

136

137

int point = blockIdx.y * blockDim.y + threadIdx.y;

138

int pos = threadIdx.x + blockIdx.x * blockDim.x + point * pitch;

139

140

141

float lsum_scale = lsum_scale_ptr[point] * lsum_mult;

142

float denom_scale = denom_scale_ptr[point];

143

144

if (denom[pos]&&denom_scale) {

145

res[pos] = (corr[pos] * corr_scale - lsum[pos]*lsum_scale) / (denom[pos] * denom_scale);

Older »