検索

クイックアクセス

チラ裏

おなかすいた族！

リンク

人気の50件

最終更新:2025-03-05 (水) 13:42:56 (135d)

LLM/モデル
LLM/モデル/ベンチマーク
Top / LLM / モデル / ベンチマーク

LLM/比較

Chatbot Arena

Artificial Analysis

Open LLM Leaderboard

MMLU

Massive Multitask Language Understanding
57のタスク（初等数学、コンピュータサイエンス、法学など）をカバー

MMLU-Pro

IFEval

Instruction-Following Eval

HumanEval

HumanEval+?

MBPP?

入門レベルのプログラマーが解けるように設計されたPythonのプログラミング問題の集合

MBPP EvalPlus?

GPQA (2023/11)

A Graduate-Level Google-Proof Q&A Benchmark
448問の選択式問題からなる難易度の高いデータセット

MATH

数学のデータセット

BIG-Bench? (2022)

BIG-Bench Hard? (2023)

BIG-Benchの中でも特に難しい23のタスクを集めた

SimpleQA?

DROP (2019)

Discrete Reasoning Over Paragraphs
英語の読解ベンチマーク

GPQA Diamond?

BFCL?

MGSM?

Multilingual Grade School Math
多言語環境における推論能力を評価

AIME

American Invitational Mathematics Examination

メモ

AI2D?
ChartQA?
DocVQA?
InfoVQA?
MMBench?

LLM/モデル/ベンチマーク/日本語

参考

https://qiita.com/shibu_phys/items/4497a2356f3c70b1053e