この記事は強化学習苦手の会 Advent Calendar 2020の25日目の記事です。 こんにちは、品川です。いよいよこのAdvent Calendarも最終日ですね。 紹介する論文は、引き続きOpenAIの"Fine-Tuning Language Models from Human Preferences (ArXiv, 2019)"です。 PPOによる学習の工夫 ペナルティ項へのターゲットの導入 Online data collectionの方法 実験で用いたモデルの設定 PPOのfine-tuning設定 Policyの初期値となる事前訓練済みのモデル(GPT-2) Reward …