はじめに エミリーちゃん、お誕生日おめでとうございました!1 nikkieです。 LLMの性能評価に興味を持ち、いくつかある評価ツールの中の1つ、Stability-AI/lm-evaluation-harnessを動かしました。 日本語の1タスクで性能を求めた例であり、車輪の再実装です。 目次 はじめに 目次 Stability-AI/lm-evaluation-harness Stability-AI/lm-evaluation-harnessを動かす! Colabにてopen-calm-7bをJCommonsenseQAタスクで評価 JCommonsenseQAタスク harness.s…