こんにちは。 強化学習のシュミレータとして最も有名なものの1つがgym環境だと思います。中でもclassical controlのCartPoleは初心者が最初に取り組むものでしょう。 インターネット上にもこれを基本的なQ learningや、中には深層強化学習を用いて学習させているものもあります。 CartPoleはとても簡単な環境であるため、難しい強化学習手法を用いるまでもありません(もちろん実装の練習にはいいと思います)。 今日はCross Entropy Methodと呼ばれる進化計算的な手法を使って攻略してみたいと思います。 Cross Entropy Method Cross En…