JGLUE

このタグの解説について

この解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

Algomatic Tech Blog•1年前

大規模言語モデル（LLM）における日本語評価の概観

はじめまして！Algomatic LLM STUDIO でインターンをしているなべ（@_h0jicha）です。普段は大学でマルチモーダル大規模言語モデルの応用に関する研究に取り組んでいます。 Algomatic のインターンでは、LLM の評価に関して網羅的な調査や各種ツールの導入に取り組んできました。本記事では、この知見を皆さんに共有することで、日本語圏における LLM 評価の現状を俯瞰していただき、各ツールを適切に選択するための糸口を提供することを目的とします。

#LLM評価#LLMOps#JGLUE#MT-Bench#HHH

ネットで話題

29ブックマーク日本語言語理解ベンチマークJGLUEの構築〜自然言語処理モデルの評価用データセットを公開しました

techblog.yahoo.co.jp

25ブックマーク GitHub - yahoojapan/JGLUE: JGLUE: Japanese General Language Understanding Evaluation

github.com

13ブックマーク JGLUEの構築そして日本語LLM評価のこれから

speakerdeck.com

5ブックマーク結局 BERT 系の日本語大規模言語モデルってどれを使えばいいの？JGLUEベンチマーク非公式まとめ

zenn.dev

関連ブログ

nikkie-ftnextの日記•1年前

Stability-AI/lm-evaluation-harnessをColabで動かす（cyberagent-open-calm-7bをJCommonsenseQAタスクで評価）

はじめにエミリーちゃん、お誕生日おめでとうございました！1 nikkieです。 LLMの性能評価に興味を持ち、いくつかある評価ツールの中の1つ、Stability-AI/lm-evaluation-harnessを動かしました。日本語の1タスクで性能を求めた例であり、車輪の再実装です。目次はじめに目次 Stability-AI/lm-evaluation-harness Stability-AI/lm-evaluation-harnessを動かす！ Colabにてopen-calm-7bをJCommonsenseQAタスクで評価 JCommonsenseQAタスク harness.s…

#lm-evaluation-harness#Stability AI#OpenCALM#JCommonsenseQA#JGLUE#性能評価#日本語#LLM

nikkie-ftnextの日記•2年前

日本語言語理解ベンチマーク JGLUE の構築方法の論文を読みました。クラウドソーシングを活用して一から構築！

はじめに日大藤沢、めっちゃいい😭 nikkieです。日本のお正月🎍ということで、自然言語処理における日本語ベンチマークを見ていきたいと思います！「ベンチマークってこうやって作るんだ〜」と興味深かったです。目次はじめに目次論文「JGLUE: 日本語言語理解ベンチマーク」 JGLUEって、どんなデータセットなの？文章分類 MARC-ja JCoLA 文ペア分類 JSTS/JNLI QA JSQuAD JCommonsenseQA JGLUEを使うには Stability-AI/lm-evaluation-harnessはJGLUEも利用終わりに論文「JGLUE: 日本語言語理解…

#言語理解#ベンチマーク#JGLUE#クラウドソーシング