最終更新:2025-05-07 (水) 22:24:34 (69d)  

LLM/モデル/ベンチマーク/日本語

Japanese MT-Bench

ELYZA-tasks-100

  • 日本語instructionモデル評価データセット

JGLUE

  • 日本語言語理解のベンチマーク

JHumanEval

  • LLMのコード生成能力の標準ベンチマークHumanEvalの日本語翻訳版

JMMLU

  • 広範囲な分野にわたる LLM の知識を測定するためのベンチマークであるMMLUを日本語訳して作られた問題と、日本特有の文化的文脈に基づいた問題 (日本語問題) からなるベンチマーク

データセット

関連

参考