Implicit Q-Learningでは、maxQ(s,a)の評価を期待回帰(Expectile Regression)によって暗黙的に行うことでオフライン強化学習の困難の一つであるサンプル外アクション問題を回避します openreview.net オフライン強化学習の困難 オフライン強化学習とは サンプル外アクションの価値評価問題 OoDアクション(Out of Distribution) の回避 SARSAアプローチ Implicit Q learning:暗黙的なQ学習 ①状態価値V(s)は行動選択に由来するランダム性をもつ確率分布である ②期待回帰(Expectile Regress…