検索

クイックアクセス

チラ裏

おなかすいた族！

リンク

人気の50件

最終更新:2025-05-19 (月) 22:55:25 (60d)

LLM
LLM/量子化
Top / LLM / 量子化

Qx - xビット量子化

フォーマット

llama.cpp形式 (形式:GGUF/ライブラリ:ggml)

メモ

q5_K_Mがバランスがよさそう

メモ

Kのついたものが「k-quant?メソッド」なる新方式による量子化モデル
- K
- K_S
- K_M
- K_L

Q4
- Q4_K_S?
- Q4_K_M (推奨)
Q5
- Q5_K_S? (推奨)
- Q5_K_M? (推奨)

UD?

Unsloth Dynamic 2.0
レイヤーごとに最適なビット数を割り当て
https://zenn.dev/kun432/scraps/30d5bbfc481126

旧量子化GGUF

Q8?以外では既にレガシー扱いとなった最初期フォーマット

Q4_0?
Q4_1?
Q5_0?
Q5_1?
Q8_0?

k-量子化GGUF

Q2_K?
Q2_K_S?
Q3_K_S?
Q3_K_M?
Q3_K_L?
Q4_K_S?
Q4_K_M
Q5_K_S?
Q5_K_M?
Q6_K?
長らく使われている馴染み深いGGUF。後述のiMatrix?にも対応しているので一応現役。

i-量子化GGUF

IQ1_S?
IQ2_XXS?
IQ2_XS?
IQ2_S?
IQ2_M?
IQ3_XXS?
IQ3_XS?
IQ3_S?
IQ3_M?
IQ4_XS?
Important Matrix計算前提のGGUF。3bit以下でも量子化誤差を抑える実装。

GPTQ

TheBloke

https://huggingface.co/TheBloke

メモ

GPTQ

関連

参考