検索

クイックアクセス

チラ裏

おなかすいた族！

リンク

人気の50件

最終更新:2025-01-23 (木) 13:58:31 (176d)

LLM/フロントエンド
Text generation web UI
Top / Text generation web UI

A Gradio web UI for Large Language Models.

https://github.com/oobabooga/text-generation-webui

バックエンド

Text generation web UI/インストール

Text generation web UI/モデル?

"Model"タブをクリックします。
"Download model or LoRA"にmodel_idを入力してDownload
- 例：elyza/ELYZA-japanese-Llama-2-7b-fast-instruct

GGUF

modelsにディレクトリにフラットに保存される

メモ

ELYZA-japanese-Llama-2-7b-fast-instruct

モデルの設定

https://github.com/oobabooga/text-generation-webui/wiki/04-‐-Model-Tab

Transformers

gpu-memoryを指定するとCPUオフロードが有効になるがパフォーマンスは非常に悪い

24.4GBのモデル(ELYZA-japanese-Llama-2-13b-fast-instruct)のロード
- そのままだとメモリ不足
- load-in-8bitを選ぶとメモリが14GBくらいになる (+生成時に数GB):2.08tokens/s
- load-in-4bitを選ぶとメモリが9GBくらいになる (+生成時に数GB):7.28tokens/s

llama.cpp

ggmlモデルは非推奨になっており、機能しなくなりました。
GGUFを読み込むときのバックエンドはllama.cppで、n-gpu-layersでGPUにオフロードするレイヤー数を指定しないとGPUを使ってくれない

モデルローダ

参考

関連

Stable Diffusion web UI

llama-cpp-python