最終更新:2026-02-26 (木) 00:20:58 (73d)  

Force Model Expert Weights onto CPU
Top / Force Model Expert Weights onto CPU

ツールチップ

  • Whether to force MoE expert weights into CPU RAM.
  • Saves VRAM and can be faster than partial GPU offload.
  • Not recommended if the model fits entirely in VRAM.

メモ

  • MoEのモデルには共通部分とエキスパートごと部分の部分がある
  • gpt-oss-20bは32エキスパート、実際に同時に使うのは4エキスパート
  • 各エキスパートはFFNで構成されている

通常

  • すべてGPUに乗せる

メモ

  • 容量
    共通層10~15%程度
    Expert層残り/エキスパート数
    Expert利用分 (これを必要なときにRAMからVRAMに送る)(残り/エキスパート数) * アクティブエキスパート数

関連

参考