概要 Imitationを使って、報酬関数の可視化を行いました。 https://imitation.readthedocs.io/ Center for Human-Compatible AI, ver 1.0 背景 GAILは、生成的敵対ネットワーク(Generative Adversarial Networks, GANs)の概念を応用して、専門家のデモンストレーションから、専門家の振る舞い(policy)を模倣するGeneratorと、専門家の行動とエージェントの行動を区別するDiscriminatorとの間で敵対的な学習を行います。 逆強化学習はこのDiscriminatorからは、…