Github
四份设备端程序需满足以下要求:
- 能正确处理数组长度不对齐的情况
- 能通过CPU端验证程序的验证,数据量n为13773131
- 四份程序增量式开发,所有程序的kernel函数名与接口必须满足要求
- 四份代码以
.dev.c作为后缀(方便直接使用预先提供的Makefile文件进行编译) - 四份代码分布增量式使用了如下优化
daxpy_11.dev.c:多线程并行优化daxpy_12.dev.c:多线程并行优化+核内SM缓存优化daxpy_l3.dev.c:多线程并行优化+核内AM缓存优化 + 向量Intrinsic向量化优化daxpy_l4.dev.c:多线程并行优化+核内AM缓存优化 + 向量Intrinsic向量化优化 +循环展开优化