最終更新:2024-04-03 (水) 13:54:56 (15d)  

Text generation web UI
Top / Text generation web UI

A gradio web UI for running Large Language Models like GPT-J 6B, OPT, GALACTICA?, LLaMA, and Pygmalion?.

https://github.com/oobabooga/text-generation-webui

バックエンド

モデルのダウンロード

  • "Model"タブをクリックします。
  • "Download model or LoRA"にmodel_idを入力してDownload
    • 例:elyza/ELYZA-japanese-Llama-2-7b-fast-instruct

メモ

モデルの設定

Transformers

  • gpu-memoryを指定するとCPUオフロードが有効になるがパフォーマンスは非常に悪い
  • 24.4GBのモデル(ELYZA-japanese-Llama-2-13b-fast-instruct)のロード
    • そのままだとメモリ不足
    • load-in-8bitを選ぶとメモリが14GBくらいになる (+生成時に数GB):2.08tokens/s
    • load-in-4bitを選ぶとメモリが9GBくらいになる (+生成時に数GB):7.28tokens/s

llama.cpp

  • ggmlモデルは非推奨になっており、機能しなくなりました。
  • GGUFを読み込むときのバックエンドはllama.cppで、n-gpu-layersでGPUにオフロードするレイヤー数を指定しないとGPUを使ってくれない

モデルローダ

参考

関連