Advances in Preference-based Reinforcement Learning: A Review 強化学習の問題点の一つとして報酬関数の設計がパフォーマンスに大きく影響してしまう点がある。PbRLでは、絶対的なスコアでの報酬ではなくペアの良し悪しという形で暗黙的な報酬信号を用いることになる。 問題設定 PbRLでのMDPは6要素のタプルとして定義される。 まず一般的な強化学習でも存在している : 状態空間 : 行動空間 : 初期状態分布 : 状態遷移分布 : 割引率 : 軌道(状態と行動ペアの系列) : 方策 がある。PbRLでは追加要素として良し悪しの関係がある。 …