目次 先日説明したIPO(Identity Preference Optimization)について実験、評価してみます。 IPOについて IPOの詳細は以下の記事をご参照下さい。 yoshishinnze.hatenablog.com ここではおさらいがてらIPOが解決しようとした課題、提案手法について概要を説明します。 IPOは、DPO(Direct Preference Optimization)の主に以下の課題を改善する目的で提案されています。 1. DPOの主な課題 1.1 報酬マージンの「際限ない増大」と過学習 DPOは、Bradley–Terryモデルに基づき、好ましい応答 yw…