最終更新:2025-02-05 (水) 19:18:42 (2d)  

LLM/モデル/ベンチマーク
Top / LLM / モデル / ベンチマーク

LLM/比較

Artificial Analysis

Open LLM Leaderboard

MMLU

  • Massive Multitask Language Understanding
  • 57のタスク(初等数学、コンピュータサイエンス、法学など)をカバー

MMLU-Pro

IFEval

  • Instruction-Following Eval

HumanEval

HumanEval+?

MBPP?

  • 入門レベルのプログラマーが解けるように設計されたPythonのプログラミング問題の集合

MBPP EvalPlus?

GPQA (2023/11)

  • A Graduate-Level Google-Proof Q&A Benchmark
  • 448問の選択式問題からなる難易度の高いデータセット

MATH

  • 数学のデータセット

BIG-Bench? (2022)

BIG-Bench Hard? (2023)

  • BIG-Benchの中でも特に難しい23のタスクを集めた

SimpleQA?

DROP (2019)

  • Discrete Reasoning Over Paragraphs
  • 英語の読解ベンチマーク

GPQA Diamond?

BFCL?

MGSM?

  • Multilingual Grade School Math
  • 多言語環境における推論能力を評価

AIME

  • American Invitational Mathematics Examination

日本語

JCommonsenseQA?

JSQuAD?

参考