こんにちは。 SB Intuitions で LLM の評価を担当している 岡 照晃、柴田 知秀 です。 本記事では我々が構築・公開した日本語のベンチマーク『JamC-QA(Japanese Multiple Choice QA, ジャムシーキューエー)』[岡+, 25]を前後編に分けて紹介しています。 前編 では JamC-QA 構築の背景、構築方法やどういった問題が含まれるのか紹介しました。 後編では JamC-QA を使った事前学習モデルの性能比較評価とその結果の考察を行なっていきます。 事前学習モデルの評価方法はこちらのブログ記事で詳しく紹介していますので併せてご覧ください。 性能評価…