最終更新:2025-01-23 (木) 13:58:31 (163d)
Text generation web UI
Top / Text generation web UI
A Gradio web UI for Large Language Models.
https://github.com/oobabooga/text-generation-webui
バックエンド
- Transformers (デフォルト)
- llama.cpp
- ExLlamaV2
- TensorRT-LLM
- AutoGPTQ
- AutoAWQ
- HQQ?
- AQLM?
Text generation web UI/インストール
Text generation web UI/モデル?
- "Model"タブをクリックします。
- "Download model or LoRA"にmodel_idを入力してDownload
- 例:elyza/ELYZA-japanese-Llama-2-7b-fast-instruct
- modelsにディレクトリにフラットに保存される
メモ
モデルの設定
Transformers
- gpu-memoryを指定するとCPUオフロードが有効になるがパフォーマンスは非常に悪い
- 24.4GBのモデル(ELYZA-japanese-Llama-2-13b-fast-instruct)のロード
- そのままだとメモリ不足
- load-in-8bitを選ぶとメモリが14GBくらいになる (+生成時に数GB):2.08tokens/s
- load-in-4bitを選ぶとメモリが9GBくらいになる (+生成時に数GB):7.28tokens/s
llama.cpp
- ggmlモデルは非推奨になっており、機能しなくなりました。
- GGUFを読み込むときのバックエンドはllama.cppで、n-gpu-layersでGPUにオフロードするレイヤー数を指定しないとGPUを使ってくれない
モデルローダ
参考
https://soroban.highreso.jp/article/article-071
https://internet.watch.impress.co.jp/docs/column/shimizu/1510290.html