最終更新:2026-02-26 (木) 00:23:45 (11d)  

ローカルLLM/オフロード
Top / ローカルLLM / オフロード

LM Studio

GPUオフロード

  • GPUで計算するモデルのレイヤー数

KVキャッシュをGPUメモリにオフロード

Force Model Expert Weights onto CPU

  • エキスパートをRAMにロードしておいて必要なエキスパートだけをVRAMに送るようにする設定
  • llama.cpp--n-cpu-moe-layers?