Q Learning

このタグの解説について

この解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

iTAC_Technical_Documents•5ヶ月前

AI でルービックキューブを揃う（導入）

概要ルービックキューブの揃え方として，LBL や CFOP からはじめ，多種多様の方法が知られている．これらの方法と群論の知識を前提にアルゴリズムを作ってルービックキューブを解くことは簡単であるが，一方，ルービックキューブの知識を使わずにエンジニアリングの知識のみで解くのは極めて難しく，未だに完全に解決されていない．３階ルービックキューブの状態空間は4325京2003兆超え非常に大きいため，単純に強化学習の Q-Learning を適用しても収束することはほぼ不可能である．2018 年の論文「人類知識なしでルービックキューブを揃う」（以下，論文と略す．文末参照）で始めて 15 ステップ以上…

ネットで話題

114ブックマーク Deep Q-LearningでFXしてみた - GMOインターネットグループグループ研究開発本部

recruit.gmo.jp

33ブックマーク【3目並べで学ぶ強化学習】Q-LearningとDQNを徹底解説

atmarkit.itmedia.co.jp

22ブックマーク GitHub - yenchenlin/DeepLearningFlappyBird: Flappy Bird hack using Deep Reinforcement Learning (Deep Q-learning).

github.com

19ブックマーク MetaOptimize Q+A - machine learning, natural language processing, artificial intelligence, text analysis, information retrieval, search, data mining, statistical modeling, and data visualization Where scientists ask and answer questions on machine learning, natural language processing, artificial intelligence, text analysis, information retrieval, search, data mining, statistical modeling, and data visualization.Where scientists ask and answer questions on machine learning, natural langu...

metaoptimize.com

17ブックマーク ChainerでやってみるDeep Q Learning - 立ち上げ編 - Qiita

qiita.com

16ブックマーク Simple Reinforcement Learning with Tensorflow Part 0: Q-Learning with Tables and Neural Networks

medium.com

16ブックマーク ChainerでDQN。強化学習を三目並べでいろいろ試してみた。（Deep Q Network、Q-Learning、モンテカルロ） - Qiita

qiita.com

14ブックマークライントレーサーをDeep Q Learningで教育する - Chainer - Qiita

qiita.com

13ブックマーク Q-Learning Q-Learning Q-LearningはTD学習の一つである．ただし，Q-Learningでは状態と行動を一つのセットとして考える．具体的な例をみながら説明をする．以下のように状態が遷移する環境があったとする．ここで，状態と行動をセットにして，評価値をセットする．たとえば，状態1における，行動Aと状態1における行動Bをそれぞれ...

mikilab.doshisha.ac.jp

関連ブログ

udeo_business•5ヶ月前

強化学習とは

強化学習とは強化学習の基本要素エージェント（Agent）環境（Environment）状態（State）観測（Observation）行動（Action）報酬（Reward）学習プロセス価値（Value）方策（Policy）推論プロセスまとめ強化学習とは強化学習とは、機械学習の一つで、エージェントが環境とやり取りしながら報酬を最大化するための適切な行動を学習する仕組みです。自動運転自動車の例を交えながら、全体像を捉えるために、強化学習の基本的な概念と学習プロセスを簡単に説明します。強化学習の基本要素エージェント（Agent）自動運転車（自動運転制御システム）…

グラフ機械学習と強化学習について•6ヶ月前

Fitted Q-iteration

久しぶりの記事です。オフライン強化学習を真面目に使いこなしていきたい。ということでオフライン強化学習の中では基本的な手法であるFitted Q-iterationについてみていきます。D. Ernstらによって2005年に提案されています。 Tree-Based Batch Mode Reinforcemen Learning 手法理解を優先とするため厳密さに欠けるところがあると思いますが、ご容赦ください。 Neural fitted Q-iterationやDeep Q-networkの基礎となっている手法です。 Value Iteration 強化学習（reinforcement le…

どこから見てもメンダコ•9ヶ月前

オフライン強化学習④：拡散モデルの台頭

オフライン強化学習における拡散方策の近年の適用例を概観し、tensorflowで実装します。背景拡散方策（Diffusion Policy）の登場模倣学習の大幅な性能向上 Diffusion-QLの衝撃主要な手法・論文 Diffusion-QL：拡散方策のミニマリストアプローチ IDQL： Implicit Q-Learning＋拡散方策深堀り模倣学習：Using generative AI to imitate human behavior Decision Diffuser ：分類器無しガイダンス（CFG）の活用 Tensorflowによる拡散方策の実装拡散方策ノイズスケジュ…

end0tknr's kipple - web写経開発•10ヶ月前

強化学習におけるマルコフ決定過程 (MDP : Markov Decision Process)

メモマルコフ決定過程とは? 次の状態（正確には次の状態になる確率）は現在の状態と行動によってのみ決まる（過去の状態に依存しない）状態遷移モデル参考url https://qiita.com/pocokhc/items/953585fa60fa71651969 マルコフ決定過程の弱点環境の遷移確率と報酬関数を事前に知る必要がある。現実の問題ではこれらのモデルが未知であることが一般的な為。マルコフ決定過程の弱点のない手法例えば、Q学習 ( Q-Learning ) やSARSA

もちもち備忘録•1年前

強化学習自分用メモ SAC編

何もわからない自分のための、参考サイトなどを元にした自分用メモ SAC (soft actor-critic) maximum entropy RL フレームワークに基づく、モデルフリーのoff-policy actor-critic deep RL アルゴ actor：エントロピーを最大化しつつ期待報酬を最大化することが目的つまり、可能な限りランダムに行動しながらタスクを成功させるこのフレームワークに基づくdeepRL手法はdeep Q-learning methodとして定式化されてる off-policy updateと安定した確率的actor-critic定式化 (stable s…

どこから見てもメンダコ•1年前

オフライン強化学習③ Implicit Q-Learning (IQL)の実装

Implicit Q-Learningでは、maxQ(s,a)の評価を期待回帰(Expectile Regression)によって暗黙的に行うことでオフライン強化学習の困難の一つであるサンプル外アクション問題を回避します openreview.net オフライン強化学習の困難オフライン強化学習とはサンプル外アクションの価値評価問題 OoDアクション(Out of Distribution) の回避 SARSAアプローチ Implicit Q learning：暗黙的なQ学習 ①状態価値V(s)は行動選択に由来するランダム性をもつ確率分布である ②期待回帰（Expectile Regress…

関連ブログ

AI でルービックキューブを揃う（導入）

ネットで話題

関連ブログ

強化学習とは

Fitted Q-iteration

オフライン強化学習④： 拡散モデルの台頭

強化学習におけるマルコフ決定過程 (MDP : Markov Decision Process)

強化学習自分用メモ SAC編

オフライン強化学習③ Implicit Q-Learning (IQL)の実装

オフライン強化学習④：拡散モデルの台頭