最終更新:2025-01-24 (金) 10:42:38 (85d)  

llama.cpp
Top / llama.cpp

Inference of LLaMA model in pure C/C++

https://github.com/ggerganov/llama.cpp

モデル

  • 各種LLMを量子化してローカルで実行できる
  • GGUF形式に対応
  • llama.cpp requires the model to be stored in the GGUF file format.
  • Models in other data formats can be converted to GGUF using the convert_*.py Python scripts in this repo.

対応モデル

フロントエンド

バックエンド

  • BackendTarget devices
    MetalApple Silicon
    BLASAll
    BLIS?All
    SYCL?Intel and Nvidia GPU
    MUSA?oore Threads MTT GPU
    CUDANvidia GPU
    HIPAMD GPU
    VulkanGPU
    CANN?Ascend NPU

速度

Dalai

関連