目次 MAPPO (Multi-Agent PPO) は、シングルエージェント向けに非常に高い実績を持つ PPO (Proximal Policy Optimization) を、マルチエージェント環境(複数のエージェントが協力・競合する環境)に拡張したアルゴリズムです。 現在、マルチエージェント強化学習(MARL)において、最も標準的かつ強力な手法の一つとして知られています。 MAPPOの基本構造:CTDE MAPPOは、 CTDE (Centralized Training, Decentralized Execution) という枠組みを採用しています。 集中学習 (Centralize…