強化学習

このタグでブログを書く

強化学習

(サイエンス)

【きょうかがくしゅう】

(英) Reinforcement Learning の訳語。

試行錯誤に基づく教師なし機械学習の一種。心理学における条件付けと考えると分かりやすい。

学習するエージェントは、あるタスクを達成するために行動する。その中で、環境から随時、報酬（あめとむち）を受け取る。エージェントはこの報酬の合計を最も多くもらえるように行動の価値を更新していく。最終的に、エージェントは報酬の合計が最も多くもらえる、すなわちタスクを達成できる行動が何かを学習する。

状態の価値を表す状態価値関数、もしくは、状態と行動の組み合わせの価値を表す行動価値関数を学習し、関数の値が最大となる行動をグリーディーに選択していく。報酬自体は、ゴールに着いたときなど、ある特定のタイミングでしかもらえないが、状態価値関数や行動価値関数では、その時点以降、累計してどれくらいの報酬がもらえるかという期待値に基づいて関数の値を決める。そのため、状態価値関数や行動価値関数に基づいてグリーディーに行動しても、合計報酬を最大化した行動になる。

強化学習の学習アルゴリズムの一つであるTD学習は、古典的な人工知能での全解探査法である動的計画法とシミュレーション計算手法で有名なモンテカルロ法の特徴をあわせ持つ。

状態価値関数や行動価値関数は、全ての状態・行動の組み合わせを離散的に表で管理することもできるが、線形基底関数モデルや非線形モデル（ニューラルネットワークなど）に基づいて、連続関数として表現することもできる。

TD学習は、方策空間内の最急降下法と似た学習方法であり、最大解ではなく、収束しても、局所解に収束する。そのため、方策空間の最大解を直接探索し、最適化問題を解く方法もある。

代表的な強化学習の学習手法には

動的計画法
モンテカルロ法
TD学習（時間的差分学習）
- Sarsa
- Q学習
- アクター・クリティック手法
- R学習
- Profit Sharing
方策空間の直接探索

などがある。

応用例としては

ゲームAI（バックギャモン）
ロボットの行動制御（ロボサッカーや2足歩行制御など）
タスクスケジューリング
チャンネル割り当て

など。

このタグの解説について

この解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

NezumiNoKuni’s blog•1ヶ月前

Imitationによる報酬関数の可視化

概要 Imitationを使って、報酬関数の可視化を行いました。 https://imitation.readthedocs.io/ Center for Human-Compatible AI, ver 1.0 背景 GAILは、生成的敵対ネットワーク（Generative Adversarial Networks, GANs）の概念を応用して、専門家のデモンストレーションから、専門家の振る舞い(policy)を模倣するGeneratorと、専門家の行動とエージェントの行動を区別するDiscriminatorとの間で敵対的な学習を行います。逆強化学習はこのDiscriminatorからは、…

#逆強化学習#強化学習

ネットで話題

528ブックマークゼロからDeepまで学ぶ強化学習 - Qiita

qiita.com

412ブックマーク機械学習・ディープラーニング・強化学習・ベイズを学べる無料講座 - HELLO CYBERNETICS

www.hellocybernetics.tech

399ブックマーク深層強化学習アルゴリズムまとめ

qiita.com

385ブックマーク深層強化学習でシステムトレードをやる時に役に立ちそうな資料まとめ - ニートの言葉

blog.takuya-andou.com

375ブックマークゼロから始める深層強化学習（NLP2018講演資料）/ Introduction of Deep Reinforcement Learning

www.slideshare.net

371ブックマーク誰でもわかる強化学習

speakerdeck.com

328ブックマーク分散深層強化学習でロボット制御 - Preferred Networks Research & Development

tech.preferred.jp

318ブックマーク ChatGPT�人間のフィードバックから強化学習した対話AI

speakerdeck.com

309ブックマークこれさえ読めばすぐに理解できる強化学習の導入と実践

deepage.net

関連ブログ

Ai-Japanの日記•2ヶ月前

AIの進化と社会への影響

1. AIの進化の歴史 AI（人工知能）の進化は、1950年代にアラン・チューリングやジョン・マッカーシーなどの研究者によって始まりました。初期のAIのアプローチは、シンボリックAIとして知られており、人間の論理的な推論や問題解決能力を模倣しようとしました。この時期の代表的なプログラミング言語としては、LISPやPrologがあります。しかし、シンボリックAIは計算能力の制約や知識表現の複雑さにより、限界がありました。その後、1980年代には専門家システムや知識ベースのアプローチが広く採用されましたが、実用的な成功例は限られていました。 2000年代に入り、機械学習の発展がAIの進化を大きく…

#AIの進化#人間とAIの共存#仕事の自動化#強化学習#スキルの再編成#教育の重要性#倫理的な問題#技術の未来#労働市場の変化#AI

Megurecaのブログ•3ヶ月前

『ストレスフリーな脳になるご機嫌脳活ルーティン』 by　茂木健一郎

ストレスフリーな脳になるご機嫌脳活ルーティン茂木健一郎Gakken 2021年4月27日第1刷発行図書館で茂木健一郎で検索していたら出てきた本。表紙では茂木さんが踊っている。。。。そしてピンクの文字。なんとも、、、軽い感じ。表紙の裏には、” 毎日の生活にルーティンを取り入れて「自粛ストレス」に負けない、プルンプルンの健康脳になりましょう！”とある。中表紙もピンク。。。長引く新型コロナウイルスで自粛が続く中、ストレスを解放しよう！ということで出版された一冊らしい。はじめに、の茂木さん説明によれば、”日々の生活の中にルーティンを取り入れ、毎日決まった動作を続…

#ストレスフリーな脳になる#ご機嫌脳活ルーティン#茂木健一郎#Gakken#読書#デフォルトモードネットワーク#ストレス#無意識#強化学習

AIとファイナンス•4ヶ月前

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで　【その5】

はじめに強化学習において、報酬設計はエージェントの学習プロセスと行動選択に大きな影響を与えます。今回の記事では、株価予測システムにおける報酬設計の戦略について詳しく見ていきます。実は当初は単純に日経225をロング、またはショートした日は単純にその日の値幅が報酬＝ペナルティとなるような設計にしていました。その結果常に「何もしない」を選択してしまうエージェントが出来てしまったので以下のように手を桑てみました。報酬設計の理由株価の動きに基づく報酬: ロングとショートの両方の行動に対して、株価の変動を基に報酬を与えます。これにより、エージェントは市場の動向を正確に予測することで報酬を最大化する…

#日経225#強化学習#Python

AIとファイナンス•4ヶ月前

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで　【その4】

はじめに前回の記事では、DQNを用いた株価予測モデルの設計と開発について説明しました。今回は、強化学習におけるシミュレーション環境の設計と、トレーディングパフォーマンスの評価に使用するメトリクスについて詳しく見ていきます。 TradingEnv クラスの設計このプロジェクトでは、TradingEnv というカスタム環境を設計しました。この環境は、強化学習エージェントが株価予測の決定を行うためのシミュレーション環境を提供します。クラスの構造初期化 (__init__): 日経平均株価、S&P500、Dowのデータセットと初期資金額を設定します。初期金額を1万円に設定してしまっていますがご…

#日経225#強化学習#Python

AIとファイナンス•4ヶ月前

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで　【その3】

はじめに前回の記事では、データの収集と前処理について詳しく見てきました。今回は、Deep Q-Network（DQN）を用いた株価予測システムのモデル設計と開発プロセスについて説明します。 Deep Q-Network (DQN) とは DQNは、伝統的なQ学習を深層学習と組み合わせた強化学習手法です。Q学習ではQ値を学習し、Qテーブルを完成させることに重きが置かれていましたが、DQNではこれに深層学習、ニューラルネットワークの考え方を含めています。ニューラルネットワークを使用してQ値を推定し、大規模な状態空間や行動空間を持つ問題に対応できます。モデルの設計このプロジェクトでは、複数の隠…

#日経225#強化学習

AIとファイナンス•4ヶ月前

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで　【その2】

はじめに前回の記事では、強化学習を用いた株価予測システムの開発について紹介しました。今回は、このプロジェクトで実際に行ったデータの収集と前処理について詳しく見ていきます。データの収集このプロジェクトでは、米国市場のS&P500とDowの指数データを使用しました。これらのデータは、YFinanceからダウンロードしました。YFinanceは、Yahoo Financeの市場データを簡単に取得できるPythonライブラリです。株価、指数、通貨、商品などの歴史的データを無料で提供しており、金融市場分析やアルゴリズムトレーディングのためのデータソースとして広く利用されています。YFinanceを…

#日経225#強化学習#Python

AIとファイナンス•4ヶ月前

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで　【その1】

はじめにこんにちは！このブログシリーズでは、強化学習を用いて株価予測システムを開発するプロジェクトの進行過程を共有していきます。このプロジェクトの目的は、米国市場のS&P500やDowのデータを基にして、日経平均株価の動きを予測することです。プロジェクトの背景株価予測は、金融市場において非常に重要なトピックです。特に、世界の主要な株価指数間には一定の相関関係が認められることが多く、これを利用することで予測の精度を高めることができます。このプロジェクトでは、米国市場の主要な指数であるDowとS&P 500を選択しました。これらの指数は、グローバルな経済動向を反映しており、日経平均株価との間…

#日経225#強化学習#Python

ABEJA Tech Blog•4ヶ月前

AIだってブラフを張れる　不完全情報に対処する強化学習

はじめに ABEJAアドベントカレンダー2023の11日目の記事です。この記事では不完全情報ゲームを解くための手法であるDeepNashについて紹介します。DeepNashはMastering the game of Stratego with model-free multiagent reinforcement learning（arXiv： Mastering the Game of Stratego with Model-Free Multiagent Reinforcement Learning）で提案されたモデルフリー強化学習をベースとした手法です。通常、強化学習を用いる場合エージ…

#強化学習#囚人のジレンマ#深層強化学習#DeepLearning

グラフ機械学習と強化学習について•4ヶ月前

強化学習でポケモンをプレイする

より多くの人に見てもらいたいと思いQiitaで投稿しましたが、こちらにも載せておきます。 qiita.com 本ブログでは、より専門的な内容を記載します。 Qiitaではカジュアルな内容を投稿しています。

#強化学習#ポケモン赤

usapyoiのブログ•2日前

ハミルトニアンモンテカルロ法を今更理解する

趣旨ハミルトニアンモンテカルロ法(HMC)を理解する(執筆当時ではまだ理解できてないけど)。注意物理ど素人なので完全には理解できてない。情報の正確性には注意。理解してないなら「理解する」とか書くなようるせーよでは解説する。 HMCとは Metropolis-Hastingsに代表されるこれまでのMCMCでは、あらかじめ与えられた初期値と初期提案分布からスタートし、棄却したりしなかったりしながらサンプリングを行うわけだが、提案分布が目的の分布と大きく外れていれば酷い出来になる。これを軽減するためにランダムウォークMetropolis-Hastingsがあるらしいのだが、あんまり探索的…

IT塾•2日前

機械学習とは？【Python】

機械学習とは機械学習とは、人間が知識を教えるのではなく、コンピュータにたくさんのデータを与えてコンピュータ自身が学習する方法です。コンピュータが学習する方法は、３つあります。 ①教師あり学習「問題」と「答え」のペアを大量に与えて、特徴を学習させる方法コンピュータが問題と答えのデータ（教師データ）のペアを大量に見て、特徴を学習することで、「どのような問題は、どのような答えか」を把握できるようになる。そのため、新しいデータを与えた時、その特徴からそれが何なのかを答えることができる。文字認識・音声認識・翻訳などで使われる。教師データ・・・問題に対する答えのデータのこと。（教師代わりの…

yk2024の日記•2日前

書籍「ゼロから作るDeep Learning ❹ 強化学習編」を読んで強化学習について理解した内容を書いています。1章バンディット問題強化学習が他の学習と大きく異なる特徴は、エージェント(ロボットなど)が環境との相互作用の中で学習すること。 2章マルコフ決定過程 3章ベルマン方程式 4章動的計画法 5章モンテカルロ法 6章 TD法 7章ニューラルネットワークとQ学習 8章 DQN 9章方策勾配法 10章さらに先へ ※強化学習について自分なりの解釈強化学習は、人間が試行錯誤で色々な行動を試しながら、結果が良かった(成功した)行動は継続して、結果が悪かった(失敗した)行動は繰り…

GROWTH VERSE TECH BLOG•3日前

AIを中心としたGROWTH VERSEの成長戦略

はじめに株式会社GROWTH VERSEの代表取締役CTOの南野です。この記事では、AIを中心とした弊社の成長戦略を紹介したいと思います。 GROWTH VERSEについて GROWTH VERSEの事業内容弊社は、デジタルマーケティングの最先端を行くエンタープライズ向けソリューション「GROWTH AI Platform」を提供する会社です。また、事業領域としては以下の三つになります。データ収集エンジンを含んだデータ基盤マーケティングオートメーションツール AIソリューションデータ収集エンジンを含んだデータ基盤は、企業が保有するさまざまな顧客データを収集・統合し、一元的に管理・分析…

sanukimichiru’s blog•4日前

4月17日（水）

人間の脳がそれをしているからオレはそれに興味があるんですよ機械単体だったら興味ないけどモデルというかんがえかた形式ーをまねる脳が言葉を処理して記憶して活用して使い方を考えて組み合わせを考えて他の人の言葉をつかってるのをきいてまねて考えて組み合わせて他人に対してそれを発したときのリアクションからまた言葉のよりよいつたわりやすい意図に即した使い方を考えていくのが人間であったらそれをモデルとしてつくったのが人間のフィードバックから強化学習した対話AI＝ChatGPT なわけであります以下そういうのとかその他のひろいもの学習するとかPDF ChatGPT人間のフィードバックから強化学習し…

文ちゃんのページ•5日前

モデルとメタファー

私たちがメタファー（比喩）をするのはわかり易いからだ。何かにたとえることによって、もっと深く表現できるからだ。和歌などはこのメタファーを多用している。だから物事を理解する時にもメタファーを使うと理解が進む。そしてこのメタファーを突きつめたものがモデル。理論はモデル化できて応用ができる。著作権の問題があるけど、この図が一つのモデル。そして、このモデルはＡＩのしくみを使った脳のモデル化となっている。この脳のはたらきは、全て数式にできている。「教師なし学習」はヘッブ則によって定式化できる。ヘッブ則とは「同時に発火したニューロン間のシナプス結合は強められる」という現象⇨【教師なし学習とは？種類・…

Yokaのブログ•5日前

Pythonで利用できるリバーシのライブラリを作りました

現在、技術書典16に向けて、リバーシを強化学習で攻略する内容の本を書いています。自分自身は、普段からゲームAIをC#やC++で実装しているのですが、現在執筆中の本では、人口が多く、比較的行数が少なくなりがちなPythonを利用しています。しかしながら、8x8のフルサイズのリバーシをPythonで全てを実装すると、探索などやろうものならとてつもない時間を要します。そこで、新たにPython用のリバーシライブラリを開発しました。バックエンドはC++で実装しているため、Pythonのみで実装する場合に比べて遥かに高速に動作します。また、AVX2を用いて処理を高速化していることから、AVX2に対応して…

資格部•5日前

AP 令和4年度秋期問4

AIにおける過学習の説明として，最も適切なものはどれか。ある領域で学習した学習済みモデルを，別の領域に再利用することによって，効率的に学習させる。学習に使った訓練データに対しては精度が高い結果となる一方で，未知のデータに対しては精度が下がる。期待している結果とは掛け離れている場合に，結果側から逆方向に学習させて，その差を少なくする。膨大な訓練データを学習させても効果が得られない場合に，学習目標として成功と判断するための報酬を与えることによって，何が成功か分かるようにする。解答・解説 (adsbygoogle = window.adsbygoogle || []).push({}); …

文ちゃんのページ•6日前

「脳の話」

昔、時実利彦氏の「脳の話」という本を読んだ覚えがある。大脳前頭葉の働きの大事さを強調していたと思うが、「パブロフの犬の話」はこの本で知ったような気がする。根が単純なので、ここから入力と出力のブラックボックスの概念に行くのは自然だった。ところが、人間はそんな機械的と同じような脳を持っていないということに気がついて、ウｨーナーの「人間機械論」を読み直してみると、フィードバックという概念が書いてあった。フィードバックはＩＴでも行っているので、もっと何かがあるはずだと思っていたら、オートポイエーシスという概念を知った。出力が同時に入力にもなるということ。でも、あまりわからなかった。そこからプロジェク…

水たまり•6日前

Can large language models explore in-context?を読んだメモ

前書き多腕バンディット問題は強化学習のとても基本的な設定だが、そこにはすでに探索と知識利用のトレードオフが存在しており、そのバランスをいかに取るかを見ることができる。MCTSなども各ノードでの行動選択はほぼ多腕バンディット問題そのものなので、これができるようになると応用先は多い。昨今では大規模言語モデル（LLM）に思考能力があるのだのないのだのいろいろ言われている気がするが、個人的にLLMが多腕バンディット問題に適切に対処できるかどうかは、一つ確認しておくべきことなのではないかと思う。広い意味で試行錯誤の挑戦をしたり、過去の行動から良い方針を決めたりすることがそもそもできそうなのかどうかを…

ABAの日誌•7日前

小さなゲーム作りでLLMができること、できないこと

前にChatGPTなどのLLM（大規模言語モデル）を使って小さなゲームを作るのはまだ難しいのでは、という記事を書いた。 ChatGPT を用いたゲーム考案の方法はいくつか考えられるが、ChatGPT に新しいゲームを考えさせ、それを実装させることは難しい。少なくとも現状の ChatGPT には、以下の課題があるように思える。 ChatGPT に、実装可能なアルゴリズムのレベルまで詳細化された、新しいゲームのアイデアを考えさせるのは難しい。 ChatGPT は、今までにない新しいアルゴリズムを、ソースコードとして実装することを不得意としている。 GPT-〇〇になればこの辺の問題は解決される？ …

kubotamaimai387’s diary•7日前

電気回路と化学物質の違いと利点

本当にシンギュラリティは怖いのかなどを、Copilotと暇な雑談をしてみた自分電気回路は、どうして電気だけで回路を作り、化学物質も含めた回路にしないのでしょうか？人の脳なども化学物質も使い複雑な働きをできますよね。そもそも化学物質を含めないから、単純な電子回路ばかりになるのではないですか？ラジオとからない必要ないですが Copilot回答を生成しています…電気回路が電気のみを使用する理由は、電気エネルギーが制御しやすく、予測可能で再現性があるためです。電気回路は、電子の流れを通じて情報を伝達し、デバイスを動作させることができます。一方で、化学物質を含む回路、例えば生体の神経系のようなものは、…

シン・情報　新製品・新サービス情報など•7日前

The News Source 2024年4月12日の各社からの新製品情報一覧

主に一般向け製品やサービスを提供している企業等からのリリース、お知らせを不定期に収集しています。対象企業は徐々に数を増やしていく予定です。キャンペーン情報、イベント情報等の関連する情報も掲載しています。ランキング参加中インターネットグリー 2024/04/12 FIRST STAGE PRODUCTION EN、第2期男性タレントオーディションを開催 REALITY Studios株式会社（本社：東京都港区、代表取締役社長：杉山綱祐、グリー株式会社100％子会社、以下「REALITY Studios」）は、運営する英語圏向けVTuberタレント事務所「FIRST STAGE PRODUC…

とふろんが何度も同じことを考えないで済むためのブログ•7日前

アイデア・マシン構想

いいこと思いついた！って瞬間とか、そのアイデアが本当にすばらしいものか自分の頭の中でチェックして、本当にうまくいきそうだ！と思える時間。そういう時に、ある種の、神経の滾りのようなものを感じることはあるだろうか？それは幻覚だ。 Claude3 Opusにこのブログを読ませて読みやすくさせたものがこれなので、これだけ読んどけばいいと思います。6000文字くらいあるし、他人が素手で書いた文章は不衛生ですからね。ブログ記事を読ませていただきました。非常に興味深い内容だと思います。機械学習やAIを用いて革新的なアイデアを生み出す方法について、いくつもの重要な視点が含まれていました。記事の内容をもう少…

@tmtmsの日記•10日前

2024/04/11

ここで言及されている、舐めてるNYT日本特派員。恐らく2002年1月2日付のJames Brooke。なお「日本でマンガが人気なのは低識字率のせい」は批判されて訂正されてた→「うちは普通の新聞じゃなく、NYタイムズだよ？なんで明日、宮崎駿にインタビューできねぇの？」https://t.co/0AE7FF7haw— dragoner@2日目東サ46a (@dragoner_JP) 2024年4月10日 PostgreSQL開発コミュニティは、SQLの発音は「シーケル」ではなく「エスキューエル」であると決定しました。https://t.co/oZONwM3AVm— Tatsuo Ishii (@t…

関連ブログ

Imitationによる報酬関数の可視化

ネットで話題

関連ブログ

AIの進化と社会への影響

『ストレスフリーな脳になる ご機嫌脳活ルーティン』 by 茂木健一郎

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで 【その5】

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで 【その4】

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで 【その3】

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで 【その2】

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで 【その1】

AIだってブラフを張れる 不完全情報に対処する強化学習

強化学習でポケモンをプレイする

ハミルトニアンモンテカルロ法を今更理解する

機械学習とは？【Python】

AIを中心としたGROWTH VERSEの成長戦略

4月17日（水）

モデルとメタファー

Pythonで利用できるリバーシのライブラリを作りました

AP 令和4年度秋期 問4

「脳の話」

Can large language models explore in-context?を読んだメモ

小さなゲーム作りでLLMができること、できないこと

電気回路と化学物質の違いと利点

The News Source 2024年4月12日の各社からの新製品情報一覧

アイデア・マシン構想

2024/04/11

『ストレスフリーな脳になるご機嫌脳活ルーティン』 by　茂木健一郎

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで　【その5】

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで　【その4】

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで　【その3】

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで　【その2】

強化学習を通じて学ぶ日経平均株価予測：データ収集から結果分析まで　【その1】

AIだってブラフを張れる　不完全情報に対処する強化学習

AP 令和4年度秋期問4