ptxas : error : Entry function '関数名' uses too much shared data (0x4e40 bytes, 0x4000 max)
と出て,コンパイル(リンク?)が通らないので調べてみた.
https://devtalk.nvidia.com/default/topic/465799/cuda-programming-and-performance/how-to-use-48k-shared-memory-in-gtx480-/
に,
とりあえず「-arch=sm_20」にしてみろよって書いてあったので,sm13だったのを「compute_20,sm_20」にプロジェクトのプロパティを変更した.
ComputeCapability1.3だと,GPUの性能に関わらず,シェアードメモリは16KB制限になってるっぽいね.