深入GPU原理

 

视频链接
GPU设计目标是最大化吞吐量,更关心并行度(parallelisim),即同时可以执行多少任务
CPU则更关心延迟和并发(concurrency)


并行:能够同时处理多个任务
并发:能够处理多个任务的功能


GPU时延比CPU高,但线程远远多于CPU
CPU希望一个线程里可以完成所有的工作,重心在减少延迟


GPU缓存机制
高带宽内存HBM Memory
caches缓存包括多级:L2 Cache Shared Mem Per SM,L1 Cache Shared across all SMs,Register File per SM
GPU直接计算数据时延会很高,所以需要HBM


GPU线程机制
Streaming Multiprosessor(SM)看作基本运算单元,每个SM中有64个warps
每四个warp进行一个并发执行,通过增加warp掩盖延迟的问题


很多时候线程不被用完。