CartPole

このタグの解説について

この解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

夏の幻の日記•1年前

Cross Entropy Methodで超簡単に攻略するCartPole（初心者向け）

こんにちは。強化学習のシュミレータとして最も有名なものの1つがgym環境だと思います。中でもclassical controlのCartPoleは初心者が最初に取り組むものでしょう。インターネット上にもこれを基本的なQ learningや、中には深層強化学習を用いて学習させているものもあります。 CartPoleはとても簡単な環境であるため、難しい強化学習手法を用いるまでもありません（もちろん実装の練習にはいいと思います）。今日はCross Entropy Methodと呼ばれる進化計算的な手法を使って攻略してみたいと思います。 Cross Entropy Method Cross En…

#CartPole#Cross Entropy Method

ネットで話題

12ブックマーク【強化学習】実装しながら学ぶA3C【CartPoleで棒立て：1ファイルで完結】 - Qiita

qiita.com

11ブックマーク【強化学習初心者向け】シンプルな実装例で学ぶQ学習、DQN、DDQN【CartPoleで棒立て：1ファイルで完結、Kearas使用】 - Qiita

qiita.com

8ブックマーク【強化学習初心者向け】シンプルな実装例で学ぶSARSA法およびモンテカルロ法【CartPoleで棒立て：1ファイルで完結】 - Qiita

qiita.com

関連ブログ

NezumiNoKuni’s blog•2ヶ月前

Imitationによる報酬関数の可視化

概要 Imitationを使って、報酬関数の可視化を行いました。 https://imitation.readthedocs.io/ Center for Human-Compatible AI, ver 1.0 背景 GAILは、生成的敵対ネットワーク（Generative Adversarial Networks, GANs）の概念を応用して、専門家のデモンストレーションから、専門家の振る舞い(policy)を模倣するGeneratorと、専門家の行動とエージェントの行動を区別するDiscriminatorとの間で敵対的な学習を行います。逆強化学習はこのDiscriminatorからは、…

VA Linux エンジニアブログ •4ヶ月前

Isaac Gym入門（活用編）

1. はじめに 2. 実行環境 3. Isaac Gymで深層強化学習 3.1 実行方法について 3.2 実行時の引数について 3.3 Isaac Gymの推論とチェックポイント 3.4 学習パラメータの設定方法 4. 最後に ex. Dockerでの環境構築執筆者：野口裕貴監修者：稲葉貴昭・高橋浩和 1. はじめに前回の環境構築編では、深層強化学習とIsaac Gymの解説を行い、Isaac Gymの環境構築を行いました。本稿では、Isaac Gym入門の活用編ということでIsaac Gymでの学習の実行方法について必要な知識等を解説していきます。 2. 実行環境前回の環境構…

VA Linux エンジニアブログ •5ヶ月前

Isaac Gym入門（環境構築編）

1. はじめに 2. 深層強化学習とは 3. Isaac gymとは 4. Isaac gymのインストール最小条件実行環境 condaでの環境構築 5. Issac gymでのHello world 6. 最後にトラブルシューティング pythonライブラリのImportError LD_LIBRARY_PATH の設定ミス "Isaac Gym" is not responding 執筆者：千葉工業大学先進工学研究科未来ロボティクス専攻野口裕貴監修者：稲葉貴昭・高橋浩和 1. はじめに本稿では、Isaac Gymと呼ばれる深層強化学習向けの物理シミュレーション環境につ…

JKになりたい•6ヶ月前

PPOにまつわる備忘録

何の記事か最近、HuggingFaceの強化学習チュートリアルをみてたんですよ。で、PPOのこの最後の目的関数の意味がわからなかったんですよね。これ。 (1) 各項は「クリップされた代理方策目的関数 - 価値関数の目的関数 + エントロピーボーナス」となっています。本記事はこれを理解するための備忘録です。ただ、多分色々解釈間違ってるんでご指摘いただけると嬉しいです。なぜ1つの目的関数でActorとCriticを更新できるの？一般的なActorCriticでは、 Actorは (2) Criticは (3) で最適化しましょう、となっていました。それぞれ目的関数が定義され、それぞれ最…

グラフ機械学習と強化学習について•7ヶ月前

Fitted Q-iteration

久しぶりの記事です。オフライン強化学習を真面目に使いこなしていきたい。ということでオフライン強化学習の中では基本的な手法であるFitted Q-iterationについてみていきます。D. Ernstらによって2005年に提案されています。 Tree-Based Batch Mode Reinforcemen Learning 手法理解を優先とするため厳密さに欠けるところがあると思いますが、ご容赦ください。 Neural fitted Q-iterationやDeep Q-networkの基礎となっている手法です。 Value Iteration 強化学習（reinforcement le…