视频链接
GPU设计目标是最大化吞吐量,更关心并行度(parallelisim),即同时可以执行多少任务
CPU则更关心延迟和并发(concurrency)
并行:能够同时处理多个任务
并发:能够处理多个任务的功能
GPU时延比CPU高,但线程远远多于CPU
CPU希望一个线程里可以完成所有的工作,重心在减少延迟
GPU缓存机制
高带宽内存HBM Memory
caches缓存包括多级:L2 Cache Shared Mem Per SM,L1 Cache Shared across all SMs,Register File per SM
GPU直接计算数据时延会很高,所以需要HBM
GPU线程机制
Streaming Multiprosessor(SM)看作基本运算单元,每个SM中有64个warps
每四个warp进行一个并发执行,通过增加warp掩盖延迟的问题
很多时候线程不被用完。
PREVIOUSobsidian使用体验
NEXT深入GPU原理