最終更新:2024-04-03 (水) 13:54:56 (15d)
Text generation web UI
Top / Text generation web UI
A gradio web UI for running Large Language Models like GPT-J 6B, OPT, GALACTICA?, LLaMA, and Pygmalion?.
https://github.com/oobabooga/text-generation-webui
バックエンド
モデルのダウンロード
- "Model"タブをクリックします。
- "Download model or LoRA"にmodel_idを入力してDownload
- 例:elyza/ELYZA-japanese-Llama-2-7b-fast-instruct
メモ
モデルの設定
Transformers
- gpu-memoryを指定するとCPUオフロードが有効になるがパフォーマンスは非常に悪い
- 24.4GBのモデル(ELYZA-japanese-Llama-2-13b-fast-instruct)のロード
- そのままだとメモリ不足
- load-in-8bitを選ぶとメモリが14GBくらいになる (+生成時に数GB):2.08tokens/s
- load-in-4bitを選ぶとメモリが9GBくらいになる (+生成時に数GB):7.28tokens/s
llama.cpp
- ggmlモデルは非推奨になっており、機能しなくなりました。
- GGUFを読み込むときのバックエンドはllama.cppで、n-gpu-layersでGPUにオフロードするレイヤー数を指定しないとGPUを使ってくれない
モデルローダ
- Transformers
- llama.cpp
- AutoGPTQ
- AutoAWQ?
参考
- https://soroban.highreso.jp/article/article-071
- https://internet.watch.impress.co.jp/docs/column/shimizu/1510290.html