こんにちは、品川です。本記事は強化学習 Advent Calendar 2021 6日目の記事です。 短いですが、最近の言語生成周りの強化学習関連の話題を取り上げたいと思います。 言語生成周りの強化学習のおさらい(2020年時点での私の理解) 最近の言語生成の強化学習①:REINFORCEもPPOへ徐々に移行中 最近の言語生成の強化学習②:価値ベース?できるよ。そう、事前学習済み言語モデルならね 言語生成周りの強化学習のおさらい(2020年時点での私の理解) 言語生成モデルの訓練にはTeacher forcingを用いる 言語生成で最もよく使われている強化学習手法は、方策勾配法の最も簡単な手法…