最終更新:2024-04-03 (水) 03:15:53 (249d)
ELYZA-japanese-Llama-2-13b-fast-instruct
Top / ELYZA-japanese-Llama-2-13b-fast-instruct
https://huggingface.co/elyza/ELYZA-japanese-Llama-2-13b-fast-instruct
- 24.4GB
Text generation web UI
- そのままだとメモリ不足
- load-in-8bitを選ぶとメモリが14GBくらいになる (+生成時に数GB):2.08tokens/s
- load-in-4bitを選ぶとメモリが9GBくらいになる (+生成時に数GB):7.28tokens/s
GGUF
- https://huggingface.co/mmnga/ELYZA-japanese-Llama-2-13b-fast-instruct-gguf
- GGUFを読み込むときのバックエンドはllama.cppで、n-gpu-layersでGPUにオフロードするレイヤー数を指定しないとGPUを使ってくれない
- ELYZA-japanese-Llama-2-13b-fast-instruct-q5_K_M.gguf (9.1GB)
- on CPU: 1.88 tokens/s
- on GPU: 22 tokens/s (VRAM 13GB, 41 layers)