最終更新:2024-04-03 (水) 13:38:17 (27d)
LLM/ベンチマーク
https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference
llama.cpp
LMSYS Chatbot Arena Leaderboard
Apple M1 Ultra
- https://www.reddit.com/r/LocalLLaMA/comments/16o4ka8/running_ggufs_on_an_m1_ultra_is_an_interesting/
- https://www.reddit.com/r/LocalLLaMA/comments/16oww9j/comment/k1od50g/
VRAM
- M1 Ultra 128GB の場合、98.3GB
- M2 Ultra 192GB の場合、142.5GB よりわずかに小さい
モデル
Model Quantized size (4-bit) Original size (f16) 7B 3.82 GB 12.63 GB 13B 7.24 GB 24.41 GB 30B 17.84 GB 63.7 GB 65B 35.5 GB 122.48 GB 70B 36.37 GB 128.3 GB
Falcon 180B Chat - GGUF
- Q4 K_M : 108.48 GB
- Q3 K_L : 91.99 GB