CUDA 用語のまとめ

カテゴリ：others

CUDA は１コア１スレッドごとに制御できない。Streaming Multiprocessor に対し Thread Block を割り付けるのが制御の最小単位だ。GPU のドライバは Thread Block を Warp に分割し、Warp のスレッドを CUDA Core 割り付け、実行する。なのでスレッドブロックと Warp との対応を理解していないと思った通りのパフォーマンスが出せない。

ハードウェアの概念

CUDA Core

Streaming Processor と呼ばれることもある。スレッドを実行する。明示的なスレッド割り付け制御はできない。

Streaming Multiprocessor（SM）

CUDA Core をまとめたもの。SM 内に CUDA Core がいくつあるかは GPU によって異なる。

SM には制約がある。Ada Lovelace 世代では以下の２つの制約がある。

キューイングできる Warp 数の上限が 48（１Warp あたり 32 スレッド）
割り付けられる Thread Block 数の上限が 24

SM のリソースに余裕があれば、複数の Thread Block を同時に実行できる。上記の場合、Thread Block のスレッド数が 768 の Thread Block は２つ同時に実行できる。Thread Block は全てのスレッドの実行が完了するまでリソースを解放しないことに注意が必要。

Warp

スレッドをまとめたもの。１Warp = 32 スレッド。

Warp 内のスレッドは同じ命令を実行する。しかし CUDA Core ごとに命令カウンタとレジスタステートを保持しているので分岐実行が可能。ただし Warp 内で同じ命令を実行する必要があるため、分岐実行は以下のようになる。

片方のパスを実行している間、もう片方のパスのスレッドを停止させる
実行したパスのスレッドを停止させ、停止させていた方のスレッドを実行する
停止していたスレッドを起こして、実行を再開する

Occupancy

Warp で測った SM の使用率。たとえば Ada Lovelace 世代では 48 Warp キューイングできる。このとき 192 スレッドの Thread Block を８個 SM に割り付けると、1,536 / 32 = 48 で Occupancy は 100% になる。Ada Lovelace 世代では割り付けられる Thread Block 数の上限が 24なので、48 スレッドの Thread Block を 32 個割り付けることはできない。余った Thread Block は別の SM に割り付けられる。24 の Thread Block を割り付けた SM の Occupancy は 75% になる。

Occupancy は 100% にすれば速いわけではない。たいていの GPU で Occupancy 50% 程度でスループットが頭打ちになる。これはレジスタが不足するために起こる。