/normxcorr/trunk : revision 6

To get this branch, use:

bzr branch
http://suren.me/webbzr/normxcorr/trunk

« back to all changes in this revision

Viewing changes to cuda/normxcorr_hw_kernel.cu

Committer: Suren A. Chilingaryan
Date: 2009-12-06 01:52:56 UTC
Revision ID: csa@dside.dyndns.org-20091206015256-evn0sne8d18ovm8o

A little more computations are moved to CUDA

files modified:
automate_image.m

cuda/normxcorr_hw.cu

cuda/normxcorr_hw.h

cuda/normxcorr_hw_kernel.cu

Show diffs side-by-side

added added

removed removed

cuda/normxcorr_hw_kernel.cu

}

static __global__ void vecPack(cufftReal *a, int asize, uint8_t *b, int bsize) {

int i = threadIdx.x + blockIdx.x*bsize;

static __global__ void vecPack(cufftReal *a, int asize, uint8_t *b, int bsize, int size) {

// int i = threadIdx.x + blockIdx.x*bsize;

// int i = bsize - threadIdx.x - 1 + (bsize - blockIdx.x - 1)*bsize;

// Invalid memory access (possibly)

// int i = (bsize - blockIdx.x)*bsize - threadIdx.x - 1;

int i = size - threadIdx.x - 1 + (size - blockIdx.x - 1)*bsize;

a[threadIdx.x + asize*blockIdx.x] = b[i];

}

static __global__ void stat1(int *buf1, int *buf2, uint8_t *img, int image_pitch, int row_pitch, int size) {

int i;

int end = size * row_pitch;

int side_idx = blockIdx.x * blockDim.x + threadIdx.x;

int img_idx = blockIdx.y * blockDim.y + threadIdx.y;

int sum = 0;

int sum2 = 0;

uint8_t *vec = img + img_idx * image_pitch + side_idx;

for (i = 0; i < end; i+=row_pitch) {

int val = vec[i];

sum += val;

sum2 += val*val;

}

buf1[side_idx * CP_BLOCK + img_idx] = sum;

buf2[side_idx * CP_BLOCK + img_idx] = sum2;

}

static __global__ void stat2(float *res1, float *res2, int *buf1, int *buf2, int size) {

int i;

int end = size * CP_BLOCK;

int img_idx = blockIdx.x * blockDim.x + threadIdx.x;

int sum = 0;

int sum2 = 0;

int *vec1 = buf1 + img_idx;

int *vec2 = buf2 + img_idx;

for (i = 0; i < end; i+=CP_BLOCK) {

sum += vec1[i];

sum2 += vec2[i];

}

res1[img_idx] = sum;

float cnt = size * size;

float mean = ((float)sum) / cnt;

res2[img_idx] = sqrtf(fmaxf(((float)sum2) / cnt - mean*mean,0));

}

static __global__ void vecCompute(

uint16_t *items, float *res,

100

}

101

102

103

104

static __global__ void vecCompute(

105

float *res,

106

cufftReal *corr, float corr_scale,

114

res[pos] = (corr[pos] * corr_scale - lsum[pos]*lsum_scale) / (denom[pos] * denom_scale);

115

}

116

}

117

118

119

static __global__ void vecCompute(

120

float *res,

121

cufftReal *corr, float corr_scale,

122

float *lsum, float *lsum_scale_ptr, float lsum_mult,

123

float *denom, float *denom_scale_ptr,

124

int size

125

) {

126

int pos = threadIdx.x + blockIdx.x*size;

127

128

float lsum_scale = (*lsum_scale_ptr) * lsum_mult;

129

float denom_scale = (*denom_scale_ptr);

130

131

if (denom[pos]&&denom_scale) {

132

res[pos] = (corr[pos] * corr_scale - lsum[pos]*lsum_scale) / (denom[pos] * denom_scale);

133

}

134

}

Older »