/normxcorr/trunk

To get this branch, use:
bzr branch http://suren.me/webbzr/normxcorr/trunk

« back to all changes in this revision

Viewing changes to dict_hw/README

  • Committer: Suren A. Chilingaryan
  • Date: 2010-04-22 19:11:35 UTC
  • Revision ID: csa@dside.dyndns.org-20100422191135-y9o6i4cdnevm1y4j
Remove all remnants of streams, and make 3D copy in LoadBaseImage

Show diffs side-by-side

added added

removed removed

Lines of Context:
1
1
Acceptable precision: 10^-3, 10^-5
2
 
CUDA 2.2 is crashing due to find_max2 kernel, CUDA 2.3 works well
 
2
CUDA 2.2 is crashing due to find_max2 kernel, CUDA 2.3 and 3.0 works well
 
3
 
 
4
 
 
5
ToDo
 
6
====
 
7
 1. Implement Volkov fast fourier code for multiplies of 2 for 2D case
 
8
 2. In CUDA 3.0 blocking of multiple 2D FFT give no performance benefit, see
 
9
    if would change in future versions.
 
10
 3. When we copying from the host to cuda (fragment mode), the memory
 
11
    transfer is interleaved with computations. Unfortunatelly, in image mode
 
12
    the memory transfer is handled as computations and there is no interleave
 
13
    is possible. Therefore, in most cases the fragment mode is faster compared
 
14
    to image mode.
 
 
b'\\ No newline at end of file'