最終更新:2024-04-03 (水) 03:15:53 (472d)

ELYZA-japanese-Llama-2
ELYZA-japanese-Llama-2-13b-fast-instruct
Top / ELYZA-japanese-Llama-2-13b-fast-instruct

Text generation web UI

https://huggingface.co/mmnga/ELYZA-japanese-Llama-2-13b-fast-instruct-gguf
GGUFを読み込むときのバックエンドはllama.cppで、n-gpu-layersでGPUにオフロードするレイヤー数を指定しないとGPUを使ってくれない
ELYZA-japanese-Llama-2-13b-fast-instruct-q5_K_M.gguf (9.1GB)
- on CPU: 1.88 tokens/s
- on GPU: 22 tokens/s (VRAM 13GB, 41 layers)