最終更新:2024-12-24 (火) 05:05:34 (21d)
Text generation web UI
Top / Text generation web UI
A Gradio web UI for Large Language Models.
https://github.com/oobabooga/text-generation-webui
バックエンド
- Transformers
- llama.cpp
- ExLlamaV2
- TensorRT-LLM
- AutoGPTQ
- AutoAWQ?
- HQQ?
- AQLM?
モデルのダウンロード
- "Model"タブをクリックします。
- "Download model or LoRA"にmodel_idを入力してDownload
- 例:elyza/ELYZA-japanese-Llama-2-7b-fast-instruct
メモ
モデルの設定
Transformers
- gpu-memoryを指定するとCPUオフロードが有効になるがパフォーマンスは非常に悪い
- 24.4GBのモデル(ELYZA-japanese-Llama-2-13b-fast-instruct)のロード
- そのままだとメモリ不足
- load-in-8bitを選ぶとメモリが14GBくらいになる (+生成時に数GB):2.08tokens/s
- load-in-4bitを選ぶとメモリが9GBくらいになる (+生成時に数GB):7.28tokens/s
llama.cpp
- ggmlモデルは非推奨になっており、機能しなくなりました。
- GGUFを読み込むときのバックエンドはllama.cppで、n-gpu-layersでGPUにオフロードするレイヤー数を指定しないとGPUを使ってくれない
モデルローダ
- Transformers
- llama.cpp
- AutoGPTQ
- AutoAWQ?
参考
- https://soroban.highreso.jp/article/article-071
- https://internet.watch.impress.co.jp/docs/column/shimizu/1510290.html