最終更新:2018-02-15 (木) 19:55:58 (2621d)
ストリーミングマルチプロセッサ
Top / ストリーミングマルチプロセッサ
Streaming Multiprocessor
Volta
Pascal
GP100?
- Tesla P100
- 56SMx64CUDAコア
GP102
- 30SMx128CUDAコア
- Tesla P40
Maxwell
- 128CUDAコア/SM
Kepler
SMX
- 192基のCUDAコア
- L1キャッシュ
- 16基のテクスチャユニット
- 1基のジオメトリエンジン
処理
- CUDAコアは16ユニットずつ1グループとしてまとめられている
- 16ユニットのグループに、2サイクル(命令によっては2サイクル以上)かけて、32スレッドのWARPの命令発行を行なう。
Fermi
- 32スレッドのワープを1クロックあたり2つ、スケジューリングしてディスパッチできるデュアルワープスケジューラ
- 共有メモリとL1キャッシュのパーティションを自由に構成可能な64KBのRAM
GT200
- SMあたりのプロセッサ(Streaming Processor,CUDAコア)は8。
- SMあたり8コアなので8スレッド並列 - 4サイクルでWarp1つ分の32スレッドの命令を発行
- SMあたりのレジスタ:32bit*16384本
- 共有メモリは16KB
G80/Tesla
- SMあたりのプロセッサ(Streaming Processor,CUDAコア)は8。
- SMあたり8コアなので8スレッド並列 - 4サイクルでWarp1つ分の32スレッドの命令を発行
- SMあたりのレジスタ:32bit*8192本
- 共有メモリは16KB