最終更新:2025-08-19 (火) 01:25:41 (294d)
--n-cpu-moe
Top / --n-cpu-moe
keep the Mixture of Experts (MoE) weights of the first N layers in the CPU
メモ
CPU処理 最初のN層のMoE重みがCPUで処理される GPU処理 N層以降のMoE重みはGPUで処理される RAM配置 指定層のMoE重みがRAMに配置される VRAM配置 残りの層のMoE重みがVRAMに配置される データコピー CPU層とGPU層間で中間結果の転送が発生する

