最終更新:2025-05-14 (水) 21:52:43 (48d)  

llama.cpp
Top / llama.cpp

Inference of LLaMA model in pure C/C++

https://github.com/ggerganov/llama.cpp

モデル

  • 各種LLMを量子化してローカルで実行できる
  • GGUF形式に対応
  • llama.cpp requires the model to be stored in the GGUF file format.
  • Models in other data formats can be converted to GGUF using the convert_*.py Python scripts in this repo.

コマンド

llama-cli?

  • llama-cli -m model.gguf

llama-server?

  • llama-server -m model.gguf --port 8080

llama-perplexity?

llama-bench?

llama-run?

llama-simple?

GGUF/変換

対応モデル

フロントエンド

バックエンド

  • BackendTarget devices
    MetalApple Silicon
    BLASAll
    BLIS?All
    SYCL?Intel and Nvidia GPU
    MUSA?oore Threads MTT GPU
    CUDANvidia GPU
    HIPAMD GPU
    VulkanGPU
    CANN?Ascend NPU

速度

Dalai

関連