reinforcement learning

このタグでブログを書く

言葉の解説

ネットで話題

reinforcement learning

(サイエンス)

【りいんふぉーすめんとらーにんぐ】

強化学習

このタグの解説について

この解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

暇さえあればアルゴリズムいじり•5日前

強化学習の探索の味方・MCTS

目次強化学習のネックポイントとなる点が探索の効率の悪さです。特にエージェント数が多くなると探索すべき空間が指数的に増加して、どんどん強化学習が難しくなります。そんな探索の効率の悪さに対する対応策となるのが今回説明するMCTSです。概要 MCTS（Monte Carlo Tree Search）は、木探索とモンテカルロシミュレーションを組み合わせた探索アルゴリズムです。囲碁や将棋などのゲームAI（AlphaGo, AlphaZero, MuZero）で広く使われています。 1. MCTS の基本アイデア MCTS は、「将来の可能性を木構造で表現し、ランダムシミュレーションで評価する」…

#MCTS#探索木#強化学習#reinforcement learning

ネットで話題

381ブックマークゼロから始める深層強化学習（NLP2018講演資料）/ Introduction of Deep Reinforcement Learning

www.slideshare.net

307ブックマーク深層強化学習の動向 / survey of deep reinforcement learning

speakerdeck.com

106ブックマーク強化学習とは？(What is Reinforcement Learning?)

sysplan.nams.kyushu-u.ac.jp

62ブックマーク論文：Beating the World’s Best at Super Smash Bros. Melee with Deep Reinforcement Learning - うどん記

ir5.hatenablog.com

52ブックマーク [1712.01815] Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm The game of chess is the most widely-studied domain in the history of artificial intelligence. The strongest programs are based on a combination of sophisticated search techniques, domain-specific adaptations, and handcrafted evaluation functions that have been refined by human experts over sever...

arxiv.org

47ブックマーク Deep Reinforcement Learning: Pong from Pixels

karpathy.github.io

47ブックマーク Bullet Real-Time Physics Simulation | Home of Bullet and PyBullet: physics simulation for games, visual effects, robotics and reinforcement learning.Kubric is an open-source Python framework that interfaces with PyBullet and Blender to generate photo-realistic scenes, with rich annotations, and seamlessly scales to large jobs distributed over thousands of machines, and generating TBs of data. Kubric can generate semi-realistic synthetic multi...

bulletphysics.org

41ブックマーク Kerasで最短で強化学習（reinforcement learning）する with OpenAI Gym - Qiita

qiita.com

36ブックマーク Learning Reinforcement Learning Github Repo with code and exercises Why Study Reinforcement Learning #Reinforcement Learning is one of the fields I’m most excited about. Over the past few years amazing results like learning to play Atari Games from raw pixels and Mastering the Game of Go have gotten a lot of attention, but RL i...

dennybritz.com

関連ブログ

暇さえあればアルゴリズムいじり•1ヶ月前

探索を行う協調学習法MAVENの調査と実験

目次先日の協調学習の問題がうまく解けませんでした。 QMIXでも難しかった原因の仮説ですが、探索があまりされなかったマルチエージェントはお互いの行動の積み重ねで寄り良い行動を探索する必要があるが、お互いの情報の梟雄不足の2点が主要因と考えました。この主要因に強い手法としてMAVEN（Multi-Agent Variational Exploration）というMARL手法が有効と考えました。今回はMAVENについて説明、実装法について説明します。概要 MAVENは、MARLにおける探索を強化するための手法です。2019年に提案され、QMIXなどの価値分解型アルゴリズムと組み合わせ…

#MARL#マルチエージェント#強化学習#reinforcement learning

暇さえあればアルゴリズムいじり•4ヶ月前

MAPPO用問題：エージェントが連携する問題

目次昨日の協調学習用のドローンの問題を、「単に各自がゴールする」レベルから、「相方の助けがないと絶対にゴールできない」という真の協調が必要なレベル（相互互助型タスク）に引き上げます。具体的には、以前少し触れた「スイッチとゲート」の概念を物理的な制約として厳密に組み込み、一方が「自己犠牲（スイッチを踏み続ける）」を払うことで、もう一方が「恩恵（ゲート通過）」を受けられる仕組みにします。問題設定修正したドローンのタスクは、専門的には「非対称な役割分担を伴う、時系列的な協調ナビゲーション問題」と定義できます。 2台のドローンをエージェント0とエージェント1とします。 1.…

#MAPPO#協調学習#reinforcement learning

暇さえあればアルゴリズムいじり•4ヶ月前

MAPPOを使った協調学習

目次 MAPPO (Multi-Agent PPO) は、シングルエージェント向けに非常に高い実績を持つ PPO (Proximal Policy Optimization) を、マルチエージェント環境（複数のエージェントが協力・競合する環境）に拡張したアルゴリズムです。現在、マルチエージェント強化学習（MARL）において、最も標準的かつ強力な手法の一つとして知られています。 MAPPOの基本構造：CTDE MAPPOは、 CTDE (Centralized Training, Decentralized Execution) という枠組みを採用しています。集中学習 (Centralize…

#協調学習#reinforcement learning

暇さえあればアルゴリズムいじり•4ヶ月前

RL: 倉庫問題をHASACにより協調学習

目次倉庫問題を何度もトライしていましたが、うまくいきませんでした。これまで使っていたアルゴリズムはQMIXというものでしたが、アルゴリズムをHASACに変更したところ何とか協調学習の上、タスクを解決させようという動作を行うように学習が出来てきました。これまで見つけた課題からHASACを導入するまでをまとめます。課題の考察現象 QMIXを使っている際に以下の現象が起きていました。両方のエージェントが協調しない学習が進んでもお互いに協調を行いません。片方のエージェントのみが動作するような現象が起きていました。有効に機能する動作をしない報酬を見直してじっと止まっているだけだとペナル…

#協調学習#reinforcement learning

暇さえあればアルゴリズムいじり•5ヶ月前

強化学習の2025トレンド

強化学習（RL）の最近の技術トレンドは、単なるアルゴリズムの改良を超え、スケーラビリティ、実世界への応用性、そしてデータの効率的な利用に焦点を当てています。ここでは、最近特に注目されていると思われる主要なトレンドを5つご紹介します。 1. 意思決定モデルとしての基盤モデル（Foundation Models for RL）大規模言語モデル（LLM）や大規模行動モデル（LAM）の成功に触発され、強化学習も汎用的な基盤モデル構築へと向かっています。 Offline RL（オフライン強化学習）の進化 : 大量の事前に収集されたデータ（オフラインデータセット）だけを使ってポリシーを学習する…

#reinforcement learning#AI

暇さえあればアルゴリズムいじり•5ヶ月前

RL: MARLによる協調動作エージェントの実装

昨日作成したコード"情報共有と継続的な協調に焦点を当てた、別の代表的な協調型MARLの例題として、「複数のセンサーによる災害現場の探索（Multi-Sensor Search & Coverage）」"を解くアルゴリズムを使って問題を解こうとしています。尚、解説ではエージェントである動作物をドローン（エージェント）と仮定しまう。今回作成したアルゴリズムは、各ドローンが同じニューラルネットワークを使って意思決定を行う、協調型MARL（Multi-Agent Reinforcement Learning）の代表的な手法です。今回アルゴリズムの概要今回採用してている主なアルゴリズムは、以下の…

#AI#reinforcement learning

暇さえあればアルゴリズムいじり•5ヶ月前

強化学習のロス管理を一覧にしてみる

目次強化学習におけるロスは通常のニューラルネットワークと異なりわかりづらい印象です。少し整理してみようと思います。強化学習における「ロス」は、教師あり学習のように一意の形があるわけではなく、「何を最適化したいか（価値・方策・両方）」によって定義が変わるという点が最初の重要ポイントです。それでは説明を進めていきます。 1. 強化学習におけるロスの考え方（全体像）教師あり学習との違いまずはここが一番重要なポイントです。教師あり学習 → 正解ラベルがあり、予測 − 正解の誤差を最小化する強化学習 → 正解行動は存在しない → 将来の報酬が最大になるように振る舞いを学習するそ…

#強化学習#ロス関数#Loss Function#reinforcement learning

暇さえあればアルゴリズムいじり•5ヶ月前

協調学習の例題問題の環境をコツと合わせて解説

目次今日は先日扱った協調学習について、問題の定義、環境コードを実装してみました。環境実装のコツと合わせて説明します。協調学習の例題強調学習の練習を行うために以下のような問題を考えてみました。協調的な例題：フォークリフトによる倉庫管理 (Multi-Robot Warehouse) この例題は、複数のエージェントが共通の資源を管理し、衝突を避けながらタスクを効率的に処理する、協調的なMARLの基本を学ぶのに非常に適しています。倉庫配送タスクの設定概要項目詳細内容環境倉庫のグリッドマップ（ピックアップ地点＆ドロップオフ地点）エージェント 2台以上のフォークリフトロボット …

#reinforcement learning#MARL

暇さえあればアルゴリズムいじり•5ヶ月前

RL: MARLの手法のCOMA

ランキング参加中GPT 続々のMARLの手法です。今回は、COMA（Counterfactual Multi-Agent Policy Gradients）について、研究背景から仕組み、特徴、解ける問題までを整理して説明します。 🧠 1. COMA とは？（概要） COMA（Foerster et al., 2018）は、協調型 MARL（マルチエージェント強化学習）のために作られたアクタ−クリティック方式（Actor–Critic）の代表的手法です。特に、 credit assignment（誰がどれだけ貢献したか）問題部分観測 Dec-POMDP 協調報酬しか与えられな…

#reinforcement learning