最終更新:2025-03-10 (月) 16:27:05 (40d)  

LLM/量子化
Top / LLM / 量子化

Qx - xビット量子化

フォーマット

llama.cpp形式 (形式:GGUF/ライブラリ:ggml)

メモ

  • q5_K_Mがバランスがよさそう

メモ

  • Kのついたものが「k-quant?メソッド」なる新方式による量子化モデル
    • K
    • K_S
    • K_M
    • K_L
  • Q4
  • Q5
    • Q5_K_S? (推奨)
    • Q5_K_M? (推奨)

旧量子化GGUF

  • Q8?以外では既にレガシー扱いとなった最初期フォーマット
  • Q4_0?
  • Q4_1?
  • Q5_0?
  • Q5_1?
  • Q8_0?

k-量子化GGUF

  • Q2_K?
  • Q2_K_S?
  • Q3_K_S?
  • Q3_K_M?
  • Q3_K_L?
  • Q4_K_S?
  • Q4_K_M
  • Q5_K_S?
  • Q5_K_M?
  • Q6_K?
  • 長らく使われている馴染み深いGGUF。後述のiMatrix?にも対応しているので一応現役。

i-量子化GGUF

  • IQ1_S?
  • IQ2_XXS?
  • IQ2_XS?
  • IQ2_S?
  • IQ2_M?
  • IQ3_XXS?
  • IQ3_XS?
  • IQ3_S?
  • IQ3_M?
  • IQ4_XS?
  • Important Matrix計算前提のGGUF。3bit以下でも量子化誤差を抑える実装。

GPTQ

TheBloke

メモ

関連

参考