最終更新:2025-05-07 (水) 22:24:34 (69d)
LLM/モデル/ベンチマーク/日本語
Japanese MT-Bench
ELYZA-tasks-100
- 日本語instructionモデル評価データセット
JGLUE
- 日本語言語理解のベンチマーク
JHumanEval
JMMLU
- 広範囲な分野にわたる LLM の知識を測定するためのベンチマークであるMMLUを日本語訳して作られた問題と、日本特有の文化的文脈に基づいた問題 (日本語問題) からなるベンチマーク