最終更新:2026-02-26 (木) 00:20:58 (73d)
Force Model Expert Weights onto CPU
Top / Force Model Expert Weights onto CPU
- LM Studio 0.3.23のBuild 3で対応
- This is utilizing the same underlying technology as llama.cpp's --n-cpu-moe.
ツールチップ
- Whether to force MoE expert weights into CPU RAM.
- Saves VRAM and can be faster than partial GPU offload.
- Not recommended if the model fits entirely in VRAM.
メモ
- MoEのモデルには共通部分とエキスパートごと部分の部分がある
- gpt-oss-20bは32エキスパート、実際に同時に使うのは4エキスパート
- 各エキスパートはFFNで構成されている
通常
- すべてGPUに乗せる
メモ
容量 共通層 10~15%程度 Expert層 残り/エキスパート数 Expert利用分 (これを必要なときにRAMからVRAMに送る) (残り/エキスパート数) * アクティブエキスパート数

