久しぶりの記事です。 オフライン強化学習を真面目に使いこなしていきたい。 ということでオフライン強化学習の中では基本的な手法であるFitted Q-iterationについてみていきます。D. Ernstらによって2005年に提案されています。 Tree-Based Batch Mode Reinforcemen Learning 手法理解を優先とするため厳密さに欠けるところがあると思いますが、ご容赦ください。 Neural fitted Q-iterationやDeep Q-networkの基礎となっている手法です。 Value Iteration 強化学習(reinforcement le…