最終更新:2025-03-10 (月) 16:27:05 (40d)
LLM/量子化
Qx - xビット量子化
フォーマット
llama.cpp形式 (形式:GGUF/ライブラリ:ggml)
メモ
- q5_K_Mがバランスがよさそう
メモ
- Kのついたものが「k-quant?メソッド」なる新方式による量子化モデル
- K
- K_S
- K_M
- K_L
旧量子化GGUF
- Q8?以外では既にレガシー扱いとなった最初期フォーマット
k-量子化GGUF
- Q2_K?
- Q2_K_S?
- Q3_K_S?
- Q3_K_M?
- Q3_K_L?
- Q4_K_S?
- Q4_K_M
- Q5_K_S?
- Q5_K_M?
- Q6_K?
- 長らく使われている馴染み深いGGUF。後述のiMatrix?にも対応しているので一応現役。
i-量子化GGUF
- IQ1_S?
- IQ2_XXS?
- IQ2_XS?
- IQ2_S?
- IQ2_M?
- IQ3_XXS?
- IQ3_XS?
- IQ3_S?
- IQ3_M?
- IQ4_XS?
- Important Matrix計算前提のGGUF。3bit以下でも量子化誤差を抑える実装。