どこか間違ってる可能性があるので,間違ってたら教えてください.勉強中なので,また新しいことが分かったら更新していきます. Q-learningとは 問題設定 目的 で,Q-learningって何? もっと具体的に! 何をするの? 補足説明 実装 Q-learningとは 問題設定 マルコフ決定過程,つまり, :状態の集合(state) :行動の集合(action) :遷移関数(transit function),は状態から行動を実行して,状態に遷移するPro. :報酬関数(reward function),はからをして,に遷移した時に得られる即時報酬. と 選択手法,割引率,学習率,(何らかの…