卷积运算可以转换成两个矩阵相乘的求解,注意是经过数据重排而不是在原有图片上进行运算
Element-wise 即可以独立运算的线程
Local意味着线程之间存在配合,比如卷积,同一数据有不同线程进行操作,因此提出线程分级
线程分级
网格Grid表示所有要执行的任务
网格中包含了很多相同线程Threads数量的块Blocks
块Blocks中的线程数独立执行,可以通过本地数据共享同步交换数据
AI计算需要找到数据运算速度和数据搬运速度(带宽)的平衡
Tensor Core 提升效率
-为什么GPU适用于AI计算?
-通过超配的线程来掩盖时延,多级的缓存平衡计算和带宽的GAP,提出Tensor Core来增加峰值算力
PREVIOUS深入GPU原理