強化学習

このタグでブログを書く

言葉の解説

ネットで話題

強化学習

(サイエンス)

【きょうかがくしゅう】

(英) Reinforcement Learning の訳語。

試行錯誤に基づく教師なし機械学習の一種。心理学における条件付けと考えると分かりやすい。

学習するエージェントは、あるタスクを達成するために行動する。その中で、環境から随時、報酬（あめとむち）を受け取る。エージェントはこの報酬の合計を最も多くもらえるように行動の価値を更新していく。最終的に、エージェントは報酬の合計が最も多くもらえる、すなわちタスクを達成できる行動が何かを学習する。

状態の価値を表す状態価値関数、もしくは、状態と行動の組み合わせの価値を表す行動価値関数を学習し、関数の値が最大となる行動をグリーディーに選択していく。報酬自体は、ゴールに着いたときなど、ある特定のタイミングでしかもらえないが、状態価値関数や行動価値関数では、その時点以降、累計してどれくらいの報酬がもらえるかという期待値に基づいて関数の値を決める。そのため、状態価値関数や行動価値関数に基づいてグリーディーに行動しても、合計報酬を最大化した行動になる。

強化学習の学習アルゴリズムの一つであるTD学習は、古典的な人工知能での全解探査法である動的計画法とシミュレーション計算手法で有名なモンテカルロ法の特徴をあわせ持つ。

状態価値関数や行動価値関数は、全ての状態・行動の組み合わせを離散的に表で管理することもできるが、線形基底関数モデルや非線形モデル（ニューラルネットワークなど）に基づいて、連続関数として表現することもできる。

TD学習は、方策空間内の最急降下法と似た学習方法であり、最大解ではなく、収束しても、局所解に収束する。そのため、方策空間の最大解を直接探索し、最適化問題を解く方法もある。

代表的な強化学習の学習手法には

動的計画法
モンテカルロ法
TD学習（時間的差分学習）
- Sarsa
- Q学習
- アクター・クリティック手法
- R学習
- Profit Sharing
方策空間の直接探索

などがある。

応用例としては

ゲームAI（バックギャモン）
ロボットの行動制御（ロボサッカーや2足歩行制御など）
タスクスケジューリング
チャンネル割り当て

など。

このタグの解説について

この解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

NezumiNoKuni’s blog•2ヶ月前

Imitationによる報酬関数の可視化

概要 Imitationを使って、報酬関数の可視化を行いました。 https://imitation.readthedocs.io/ Center for Human-Compatible AI, ver 1.0 背景 GAILは、生成的敵対ネットワーク（Generative Adversarial Networks, GANs）の概念を応用して、専門家のデモンストレーションから、専門家の振る舞い(policy)を模倣するGeneratorと、専門家の行動とエージェントの行動を区別するDiscriminatorとの間で敵対的な学習を行います。逆強化学習はこのDiscriminatorからは、…

#逆強化学習#強化学習

ネットで話題

528ブックマークゼロからDeepまで学ぶ強化学習 - Qiita

qiita.com

412ブックマーク機械学習・ディープラーニング・強化学習・ベイズを学べる無料講座 - HELLO CYBERNETICS

www.hellocybernetics.tech

399ブックマーク深層強化学習アルゴリズムまとめ

qiita.com

385ブックマーク深層強化学習でシステムトレードをやる時に役に立ちそうな資料まとめ - ニートの言葉

blog.takuya-andou.com

375ブックマークゼロから始める深層強化学習（NLP2018講演資料）/ Introduction of Deep Reinforcement Learning

www.slideshare.net

371ブックマーク誰でもわかる強化学習

speakerdeck.com

328ブックマーク分散深層強化学習でロボット制御 - Preferred Networks Research & Development

tech.preferred.jp

318ブックマーク ChatGPT�人間のフィードバックから強化学習した対話AI

speakerdeck.com

309ブックマークこれさえ読めばすぐに理解できる強化学習の導入と実践

deepage.net

関連ブログ

Ai-Japanの日記•3ヶ月前

AIの進化と社会への影響

1. AIの進化の歴史 AI（人工知能）の進化は、1950年代にアラン・チューリングやジョン・マッカーシーなどの研究者によって始まりました。初期のAIのアプローチは、シンボリックAIとして知られており、人間の論理的な推論や問題解決能力を模倣しようとしました。この時期の代表的なプログラミング言語としては、LISPやPrologがあります。しかし、シンボリックAIは計算能力の制約や知識表現の複雑さにより、限界がありました。その後、1980年代には専門家システムや知識ベースのアプローチが広く採用されましたが、実用的な成功例は限られていました。 2000年代に入り、機械学習の発展がAIの進化を大きく…

#AIの進化#人間とAIの共存#仕事の自動化#強化学習#スキルの再編成#教育の重要性#倫理的な問題#技術の未来#労働市場の変化#AI

Megurecaのブログ•3ヶ月前

『ストレスフリーな脳になるご機嫌脳活ルーティン』 by　茂木健一郎

ストレスフリーな脳になるご機嫌脳活ルーティン茂木健一郎Gakken 2021年4月27日第1刷発行図書館で茂木健一郎で検索していたら出てきた本。表紙では茂木さんが踊っている。。。。そしてピンクの文字。なんとも、、、軽い感じ。表紙の裏には、” 毎日の生活にルーティンを取り入れて「自粛ストレス」に負けない、プルンプルンの健康脳になりましょう！”とある。中表紙もピンク。。。長引く新型コロナウイルスで自粛が続く中、ストレスを解放しよう！ということで出版された一冊らしい。はじめに、の茂木さん説明によれば、”日々の生活の中にルーティンを取り入れ、毎日決まった動作を続…

#ストレスフリーな脳になる#ご機嫌脳活ルーティン#茂木健一郎#Gakken#読書#デフォルトモードネットワーク#ストレス#無意識#強化学習

AIとファイナンス•4ヶ月前

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで　【その5】

はじめに強化学習において、報酬設計はエージェントの学習プロセスと行動選択に大きな影響を与えます。今回の記事では、株価予測システムにおける報酬設計の戦略について詳しく見ていきます。実は当初は単純に日経225をロング、またはショートした日は単純にその日の値幅が報酬＝ペナルティとなるような設計にしていました。その結果常に「何もしない」を選択してしまうエージェントが出来てしまったので以下のように手を桑てみました。報酬設計の理由株価の動きに基づく報酬: ロングとショートの両方の行動に対して、株価の変動を基に報酬を与えます。これにより、エージェントは市場の動向を正確に予測することで報酬を最大化する…

#日経225#強化学習#Python

AIとファイナンス•4ヶ月前

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで　【その4】

はじめに前回の記事では、DQNを用いた株価予測モデルの設計と開発について説明しました。今回は、強化学習におけるシミュレーション環境の設計と、トレーディングパフォーマンスの評価に使用するメトリクスについて詳しく見ていきます。 TradingEnv クラスの設計このプロジェクトでは、TradingEnv というカスタム環境を設計しました。この環境は、強化学習エージェントが株価予測の決定を行うためのシミュレーション環境を提供します。クラスの構造初期化 (__init__): 日経平均株価、S&P500、Dowのデータセットと初期資金額を設定します。初期金額を1万円に設定してしまっていますがご…

#日経225#強化学習#Python

AIとファイナンス•4ヶ月前

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで　【その3】

はじめに前回の記事では、データの収集と前処理について詳しく見てきました。今回は、Deep Q-Network（DQN）を用いた株価予測システムのモデル設計と開発プロセスについて説明します。 Deep Q-Network (DQN) とは DQNは、伝統的なQ学習を深層学習と組み合わせた強化学習手法です。Q学習ではQ値を学習し、Qテーブルを完成させることに重きが置かれていましたが、DQNではこれに深層学習、ニューラルネットワークの考え方を含めています。ニューラルネットワークを使用してQ値を推定し、大規模な状態空間や行動空間を持つ問題に対応できます。モデルの設計このプロジェクトでは、複数の隠…

#日経225#強化学習

AIとファイナンス•4ヶ月前

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで　【その2】

はじめに前回の記事では、強化学習を用いた株価予測システムの開発について紹介しました。今回は、このプロジェクトで実際に行ったデータの収集と前処理について詳しく見ていきます。データの収集このプロジェクトでは、米国市場のS&P500とDowの指数データを使用しました。これらのデータは、YFinanceからダウンロードしました。YFinanceは、Yahoo Financeの市場データを簡単に取得できるPythonライブラリです。株価、指数、通貨、商品などの歴史的データを無料で提供しており、金融市場分析やアルゴリズムトレーディングのためのデータソースとして広く利用されています。YFinanceを…

#日経225#強化学習#Python

AIとファイナンス•4ヶ月前

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで　【その1】

はじめにこんにちは！このブログシリーズでは、強化学習を用いて株価予測システムを開発するプロジェクトの進行過程を共有していきます。このプロジェクトの目的は、米国市場のS&P500やDowのデータを基にして、日経平均株価の動きを予測することです。プロジェクトの背景株価予測は、金融市場において非常に重要なトピックです。特に、世界の主要な株価指数間には一定の相関関係が認められることが多く、これを利用することで予測の精度を高めることができます。このプロジェクトでは、米国市場の主要な指数であるDowとS&P 500を選択しました。これらの指数は、グローバルな経済動向を反映しており、日経平均株価との間…

#日経225#強化学習#Python

ABEJA Tech Blog•5ヶ月前

AIだってブラフを張れる　不完全情報に対処する強化学習

はじめに ABEJAアドベントカレンダー2023の11日目の記事です。この記事では不完全情報ゲームを解くための手法であるDeepNashについて紹介します。DeepNashはMastering the game of Stratego with model-free multiagent reinforcement learning（arXiv： Mastering the Game of Stratego with Model-Free Multiagent Reinforcement Learning）で提案されたモデルフリー強化学習をベースとした手法です。通常、強化学習を用いる場合エージ…

#強化学習#囚人のジレンマ#深層強化学習#DeepLearning

グラフ機械学習と強化学習について•5ヶ月前

強化学習でポケモンをプレイする

より多くの人に見てもらいたいと思いQiitaで投稿しましたが、こちらにも載せておきます。 qiita.com 本ブログでは、より専門的な内容を記載します。 Qiitaではカジュアルな内容を投稿しています。

#強化学習#ポケモン赤

「好き」をブチ抜く•2日前

人工知能・認知科学を学びたい【おすすめ本・入門書紹介】読書記録

記事の内容この記事では、人工知能や認知科学に関するおすすめ本を紹介します。読み物的な入門書から理論系の本まで、できるだけ幅広く紹介したいです。色々なテーマの本を読んでいますが、人工知能は理論的にも、実社会的にも、とても面白い話題ですよね。今後も目が離せません。それでは、目次をどうぞ。記事の内容人工知能と認知科学について認知科学心と脳認知科学入門安西祐一郎教養としての認知科学鈴木宏昭類似と思考鈴木宏昭人間の解剖はサルの解剖のための鍵である認知科学への招待大津由紀夫コミュニケーションの認知科学1 言語と身体性認知科学への招待苫米地英人知能の物語中島秀之 …

日記•4日前

20240423

リモートワーク。なんだか疲労感が強い。昼間の散歩で足が震えていた。給料が半分になってもいいから強化学習でお金をもらいたい気分にはなってきている。それが現実的に可能なのかどうか。単純に考えると今の自分では業績が足りないので、それを増しに行く必要がありそうだ。そういうことをちゃんと考えなきゃいけない。 Decision Mambaの著者は一人で、しかも日本の人である。所属的にはCyberAgentのリサーチかつ、理研所属ということになっているらしい。そういうところでは強化学習をやってお金をもらうことができるのか。業務後はMambaの逆伝播について考えて、一定の理解は得た。でもこういう1,2時間…

48's diary•4日前

二番絞りの二番煎じ

扱い遅れましたが、DeepMindがまた話題の新作です。本当に素晴らしいですね。 www.itmedia.co.jp 一切の探索なしでチェスのグランドマスターレベルだそうです。どこかで聞いたような話ですね。二番絞り＠将棋倶楽部24の戦型分析 - 48's diary 二番絞り＠将棋倶楽部24の戦型分析・続編 - 48's diary 一年前に私が将棋で到達したところです。多くの対戦プレイヤーには感謝申し上げます。実際チェスよりも将棋の方が駒の数、盤面サイズ、駒の再利用と複雑性が高いことからコンピュータで扱う場合も高度であるとされています。また、Google DeepMindの方から…

日記•5日前

20240422

昼から出社。雨の中行く意味があったのだろうか？それは永遠の謎である。マスターズ選手権とかも、スポンサーになることで知名度アップとか好感度アップとか、そういうのはかなり測定しにくい貢献だと思うし、かけるコストに見合ったものがあると確信できることはないんじゃないか。世の中にはそういう決断をすることで立場を得ている人が居るということを、最近たびたび感じるようになってきた。まぁそれでも自分は自分の興味があるところに集中していればいい。とにかく今はMamba × 強化学習だ。

クーの自由研究•5日前

ED法(誤差拡散法)の時流に乗る

自分、不器用なのでこんにちわ、こんばんわ。かえるのクーの役立たず助手の「井戸中聖」（いとなかセイ）でございます。今日何故か検索で、あの「金子勇」様の「ED法」が頻繁にヒットしました。「流れ」があるのかもしれません。柳の下のｎ+1匹目のドジョウ掬いをしてみます。さぁ。貴方も一緒に時流に乗りましょう。 Error Diffusion法（誤差拡散(ED)法*1）とは有名なプログラマであった、故金子勇様考案のニューラルネット学習方式です。1999年あたりに考案され(Winnyより前！）、「第参回天下一カウボーイ大会」登壇で広く知られることになった学習アルゴリズムです。開発者ご自身の説明 …

IT技術早わかりくん•7日前

機械学習とは

機械学習（Machine Learning）とは、人工知能（AI）の一分野であり、コンピュータが明示的にプログラムされることなく、データから自動的に学習し、タスクを改善していく手法を指します。機械学習システムは、大量のデータを分析し、そこから規則性やパターンを見つけ出し、新しいデータに対して適切な予測や意思決定を行うことができます。機械学習の主な目的は以下の通りです： 1. 予測：過去のデータから学習し、未知のデータに対して予測を行います。例えば、スパムメールの検出、顧客の購買行動の予測などが含まれます。 2. 分類：データを事前に定義されたカテゴリーに分類します。例えば、画像認識における物…

usapyoiのブログ•8日前

ハミルトニアンモンテカルロ法を今更理解する

趣旨ハミルトニアンモンテカルロ法(HMC)を理解する(執筆当時ではまだ理解できてないけど)。注意物理ど素人なので完全には理解できてない。情報の正確性には注意。理解してないなら「理解する」とか書くなようるせーよでは解説する。 HMCとは Metropolis-Hastingsに代表されるこれまでのMCMCでは、あらかじめ与えられた初期値と初期提案分布からスタートし、棄却したりしなかったりしながらサンプリングを行うわけだが、提案分布が目的の分布と大きく外れていれば酷い出来になる。これを軽減するためにランダムウォークMetropolis-Hastingsがあるらしいのだが、あんまり探索的…

IT塾•8日前

機械学習とは？【Python】

機械学習とは機械学習とは、人間が知識を教えるのではなく、コンピュータにたくさんのデータを与えてコンピュータ自身が学習する方法です。コンピュータが学習する方法は、３つあります。 ①教師あり学習「問題」と「答え」のペアを大量に与えて、特徴を学習させる方法コンピュータが問題と答えのデータ（教師データ）のペアを大量に見て、特徴を学習することで、「どのような問題は、どのような答えか」を把握できるようになる。そのため、新しいデータを与えた時、その特徴からそれが何なのかを答えることができる。文字認識・音声認識・翻訳などで使われる。教師データ・・・問題に対する答えのデータのこと。（教師代わりの…

yk2024の日記•8日前

書籍「ゼロから作るDeep Learning ❹ 強化学習編」を読んで強化学習について理解した内容を書いています。1章バンディット問題強化学習が他の学習と大きく異なる特徴は、エージェント(ロボットなど)が環境との相互作用の中で学習すること。 2章マルコフ決定過程 3章ベルマン方程式 4章動的計画法 5章モンテカルロ法 6章 TD法 7章ニューラルネットワークとQ学習 8章 DQN 9章方策勾配法 10章さらに先へ ※強化学習について自分なりの解釈強化学習は、人間が試行錯誤で色々な行動を試しながら、結果が良かった(成功した)行動は継続して、結果が悪かった(失敗した)行動は繰り…

GROWTH VERSE TECH BLOG•9日前

AIを中心としたGROWTH VERSEの成長戦略

はじめに株式会社GROWTH VERSEの代表取締役CTOの南野です。この記事では、AIを中心とした弊社の成長戦略を紹介したいと思います。 GROWTH VERSEについて GROWTH VERSEの事業内容弊社は、デジタルマーケティングの最先端を行くエンタープライズ向けソリューション「GROWTH AI Platform」を提供する会社です。また、事業領域としては以下の三つになります。データ収集エンジンを含んだデータ基盤マーケティングオートメーションツール AIソリューションデータ収集エンジンを含んだデータ基盤は、企業が保有するさまざまな顧客データを収集・統合し、一元的に管理・分析…

sanukimichiru’s blog•10日前

4月17日（水）

人間の脳がそれをしているからオレはそれに興味があるんですよ機械単体だったら興味ないけどモデルというかんがえかた形式ーをまねる脳が言葉を処理して記憶して活用して使い方を考えて組み合わせを考えて他の人の言葉をつかってるのをきいてまねて考えて組み合わせて他人に対してそれを発したときのリアクションからまた言葉のよりよいつたわりやすい意図に即した使い方を考えていくのが人間であったらそれをモデルとしてつくったのが人間のフィードバックから強化学習した対話AI＝ChatGPT なわけであります以下そういうのとかその他のひろいもの学習するとかPDF ChatGPT人間のフィードバックから強化学習し…

文ちゃんのページ•12日前

モデルとメタファー

私たちがメタファー（比喩）をするのはわかり易いからだ。何かにたとえることによって、もっと深く表現できるからだ。和歌などはこのメタファーを多用している。だから物事を理解する時にもメタファーを使うと理解が進む。そしてこのメタファーを突きつめたものがモデル。理論はモデル化できて応用ができる。著作権の問題があるけど、この図が一つのモデル。そして、このモデルはＡＩのしくみを使った脳のモデル化となっている。この脳のはたらきは、全て数式にできている。「教師なし学習」はヘッブ則によって定式化できる。ヘッブ則とは「同時に発火したニューロン間のシナプス結合は強められる」という現象⇨【教師なし学習とは？種類・…

Yokaのブログ•12日前

Pythonで利用できるリバーシのライブラリを作りました

現在、技術書典16に向けて、リバーシを強化学習で攻略する内容の本を書いています。自分自身は、普段からゲームAIをC#やC++で実装しているのですが、現在執筆中の本では、人口が多く、比較的行数が少なくなりがちなPythonを利用しています。しかしながら、8x8のフルサイズのリバーシをPythonで全てを実装すると、探索などやろうものならとてつもない時間を要します。そこで、新たにPython用のリバーシライブラリを開発しました。バックエンドはC++で実装しているため、Pythonのみで実装する場合に比べて遥かに高速に動作します。また、AVX2を用いて処理を高速化していることから、AVX2に対応して…

関連ブログ

Imitationによる報酬関数の可視化

ネットで話題

関連ブログ

AIの進化と社会への影響

『ストレスフリーな脳になる ご機嫌脳活ルーティン』 by 茂木健一郎

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで 【その5】

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで 【その4】

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで 【その3】

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで 【その2】

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで 【その1】

AIだってブラフを張れる 不完全情報に対処する強化学習

強化学習でポケモンをプレイする

人工知能・認知科学を学びたい【おすすめ本・入門書紹介】読書記録

20240423

二番絞りの二番煎じ

20240422

ED法(誤差拡散法)の時流に乗る

機械学習とは

ハミルトニアンモンテカルロ法を今更理解する

機械学習とは？【Python】

AIを中心としたGROWTH VERSEの成長戦略

4月17日（水）

モデルとメタファー

Pythonで利用できるリバーシのライブラリを作りました

『ストレスフリーな脳になるご機嫌脳活ルーティン』 by　茂木健一郎

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで　【その5】

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで　【その4】

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで　【その3】

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで　【その2】

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで　【その1】

AIだってブラフを張れる　不完全情報に対処する強化学習