最終更新:2025-02-05 (水) 19:18:42 (2d)
LLM/モデル/ベンチマーク
LLM/比較
Artificial Analysis
Open LLM Leaderboard
MMLU
- Massive Multitask Language Understanding
- 57のタスク(初等数学、コンピュータサイエンス、法学など)をカバー
MMLU-Pro
IFEval
- Instruction-Following Eval
HumanEval
HumanEval+?
MBPP?
- 入門レベルのプログラマーが解けるように設計されたPythonのプログラミング問題の集合
MBPP EvalPlus?
GPQA (2023/11)
- A Graduate-Level Google-Proof Q&A Benchmark
- 448問の選択式問題からなる難易度の高いデータセット
MATH
- 数学のデータセット
BIG-Bench? (2022)
BIG-Bench Hard? (2023)
- BIG-Benchの中でも特に難しい23のタスクを集めた
SimpleQA?
DROP (2019)
- Discrete Reasoning Over Paragraphs
- 英語の読解ベンチマーク
GPQA Diamond?
BFCL?
MGSM?
- Multilingual Grade School Math
- 多言語環境における推論能力を評価
AIME
- American Invitational Mathematics Examination