最終更新:2024-12-24 (火) 05:05:34 (21d)  

Text generation web UI
Top / Text generation web UI

A Gradio web UI for Large Language Models.

https://github.com/oobabooga/text-generation-webui

バックエンド

モデルのダウンロード

  • "Model"タブをクリックします。
  • "Download model or LoRA"にmodel_idを入力してDownload
    • 例:elyza/ELYZA-japanese-Llama-2-7b-fast-instruct

メモ

モデルの設定

Transformers

  • gpu-memoryを指定するとCPUオフロードが有効になるがパフォーマンスは非常に悪い
  • 24.4GBのモデル(ELYZA-japanese-Llama-2-13b-fast-instruct)のロード
    • そのままだとメモリ不足
    • load-in-8bitを選ぶとメモリが14GBくらいになる (+生成時に数GB):2.08tokens/s
    • load-in-4bitを選ぶとメモリが9GBくらいになる (+生成時に数GB):7.28tokens/s

llama.cpp

  • ggmlモデルは非推奨になっており、機能しなくなりました。
  • GGUFを読み込むときのバックエンドはllama.cppで、n-gpu-layersでGPUにオフロードするレイヤー数を指定しないとGPUを使ってくれない

モデルローダ

参考

関連