ブログトップ 記事一覧 ログイン 無料ブログ開設

翡翠はコンピュータに卵を生むか

2006-11-12

輪読

強化学習

強化学習

先生には最早そういう時期ではないと言われたけどこれの輪読会をセッティングしてみた。この本は生協で安売りしてたこともあって、参加者には買ってもらった。水曜にやった1章では、強化学習が試行錯誤による学習であること、他の最適化手法との違い、探索と搾取とのジレンマを考えるほとんど唯一の手法であることなどが述べられている。

選択的/連想的による最適化手法の分類

手法選択的連想的
進化ありなし
教師ありなしあり
強化学習ありあり

選択的とは試行錯誤などで探索を行うかどうか、連想的とは記憶を用いる手法かどうかだと解釈している。シミュレーテッドアニーイングなども進化的手法に分類されるらしい。強化学習は探索もするし記憶も使うから両方あり。ランダム性と知識利用の兼ね合いを考える必要がある。昨日紹介した本の中でも、これまでによく研究されていたニューラルネットだと例からの訓練時には学習を行うが、実際の運用時には学習しないことがダメなんだと主張されていたような気がする。

Connection: close