こんにちは、CCCMKホールディングス TECH LAB三浦です。 なんだか急に涼しくなってきました。過ごしやすくなってありがたいのですが、急な気温の変化に体が付いていけていないです・・・。こういう時期はちゃんと睡眠をとらないと、と意識するようになりました。 今回は以前から気になっていた、Reinforcement Learning from Human Feedback(RLHF)という強化学習の手法について調べてみました。 LMがより好ましいテキストを生成出来るようにする 大量のテキストデータによって自然なテキストを生成できることが出来るようになった言語モデル(Language model…