近似解を求める計算手法の1つ. 乱数を用いるシミュレーションを使う →マルコフ連鎖モンテカルロ
こんにちは、宿六です。今日は、多くのギャンブラーが気になるモンテカルロ法について、詳しく解説していきます。モンテカルロ法は、確率と統計を利用して複雑なシステムの動作をシミュレートし、分析する手法です。特にルーレットなどのカジノゲームでその効果を発揮します。今回は、私自身の実例を交えて、その魅力と実践方法をお伝えします。 #### モンテカルロ法とは?モンテカルロ法は、ランダム性を利用して問題を解決するための手法で、カジノゲームではベット金額の決定に使われます。特に、ルーレットのようなゲームで使われることが多く、リスト管理と賭け金の計算に基づくシステムです。 #### ステップバイステップガイド…
趣旨 ハミルトニアンモンテカルロ法(HMC)を理解する(執筆当時ではまだ理解できてないけど)。 注意 物理ど素人なので完全には理解できてない。情報の正確性には注意。 理解してないなら「理解する」とか書くなよ うるせーよ では解説する。 HMCとは Metropolis-Hastingsに代表されるこれまでのMCMCでは、あらかじめ与えられた初期値と初期提案分布からスタートし、棄却したりしなかったりしながらサンプリングを行うわけだが、提案分布が目的の分布と大きく外れていれば酷い出来になる。これを軽減するためにランダムウォークMetropolis-Hastingsがあるらしいのだが、あんまり探索的…
はじめに DLC後編 藍の円盤にて(アローラ)ナッシーが解禁されました。 このポケモンは「とおせんぼう」と「ねをはる」を覚えるため、吹き飛ばし持ちのディンルーやカバルドンさえもキャッチしてTODできます。 周知のとおりチオンジェンでも同じことができます。 さて、初手の起点作成ポケモンとしてはキラフロルも有名ですね。 チオンジェンは特防が高く、毒テラス+バークアウトで容易にTODできます。しかしながら、(アローラ)ナッシーの種族値はH95D75と高いとはいえず、残飯+根をはる+守るでは受けきれません。 そこで、夢特性の収穫を使って耐久したいところですが、 相手の攻撃の追加効果や急所に加えて、50…
強化学習とは 強化学習の基本要素 エージェント(Agent) 環境(Environment) 状態(State) 観測(Observation) 行動(Action) 報酬(Reward) 学習プロセス 価値(Value) 方策(Policy) 推論プロセス まとめ 強化学習とは 強化学習とは、機械学習の一つで、エージェントが環境とやり取りしながら報酬を最大化するための適切な行動を学習する仕組みです。 最終的な価値を最大化するためのエージェントの行動を予測し続けます。 自動運転自動車の例を交えながら、全体像を捉えるために、強化学習の基本的な概念と学習プロセスを簡単に説明します。 強化学習の基本…
A Tour of Goを履修しました。練習として、モンテカルロ法で円周率を求めるシミュレーションをGoで実装したので、それをご紹介します。 モンテカルロ法による円周率の導出 シミュレーション 開発環境 サンプルプログラム 解説 おわりに 参考文献 モンテカルロ法による円周率の導出 モンテカルロ法というと難しい印象を受けるかもしれませんが、やりたいことは「乱数を使って点をばらまき、円の中にある点を数える」だけです。 いったん、円の面積を求める公式を振り返ります。 が円の面積、が円の半径、が円周率です。小学校では「円の面積=半径×半径×3.14」と習いますね。1 ここでは後述するシミュレーション…
ChatGPTにお願いするとプログラムを生成してくれるというので試してみました。なお、プログラミング言語としてはWScript *1 を指定しました。 ChatGPT が生成した円周率を計算するプログラム もう一度同じ質問を投げてみた 言い回しを変えて質問を投げてみた さらに言い回しを変えてみた 別のスクリプト言語を指定してみた アバウトな要望をしてみた Leibnizの公式を指定してみた Math.pow関数の使用を指定してみた ChatGPT による回答の画面キャプチャ 感想 脚注・コメント ChatGPT が生成した円周率を計算するプログラム"円周率を計算するWscriptを教えてくださ…
強化学習の観点 何を学習するか 状態や行動の価値を学習: Valueベース 戦略を学習: Policyベース 学習に使う環境をモデル化できるか できる: モデルベース できない: モデルフリー 学習に用いる実績情報はなにか 報酬のみから学習: モンテカルロ法 報酬と見積った価値から学習: TD法 価値を見積もる際に戦略を考慮するか する: On-Policy しない: Off-Policy 主要な手法をこれらの観点で分類するとこんな感じ Value/Policyベース モデルベース/フリー モンテカルロ/TD法 On/Off-Policy Value Iteration Value モデルベー…
円周率πと聞くと、多くの人は「無理数」であることや「円の直径に対する円周の長さの比率」と思いつくかもしれません。 しかし、その円周率を求める方法を知っている人は少ないのではないでしょうか? その答えは…ラマヌジャンの公式? 1π=√8992∞∑n=0(4n)!(4nn!)41103+26390n994n いいえ、点を書くだけです。 点を書く… 点を書くとはいっても紙にランダムに点を書いても意味がないので、その方法を伝授いたしましょう。 ↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓ ①一辺2r2rの正方形の中にぴったり入る半径rrの円を用意します。 ②この正方形の中に、ランダムに点を打ってい…
イアン・スチュアート 著 徳田 功 訳 「不確実性を飼いならす」メモ 不確実性を飼いならす——予測不能な世界を読み解く科学 作者:イアン・スチュアート 白揚社 Amazon 「不確実性を飼いならす」を読み終えた。 本を購入したときは、どんな内容の本なのか良くわかっていなかった。確率論や統計論からはじまり、非線型力学(カオス)、量子力学まで、不確実性に対処するために人間たちが生み出してきた方法(科学)を解説していた。 印象に残ったのは、15章の「量子の不確定性」で、決定論に基づく隠れた変数理論が、不気味な遠隔作用(互いに遠方にある二粒子からなる系で、一方の測定が他方に瞬時に(光速を越えて)影響を…
モンテカルロ法で『円周率π』の近似値を、サンプル数100~10,000で求める。 サンプル数100、1,000、10,000の分布図を円内と円外の点の色を変えて作成すると、サンプル数が多いほど半径1の円弧が分かりやすい。 サンプル数が多い方が、『円周率π』と近似値との誤差が小さくなる傾向がある。サンプル数が1,000を超えると誤差が小さくなり始めて、7,000を超えると通常使う3.14に限りなく近付いていく。モンテカルロ法の第一歩である『円周率π』の近似値の動きが分かりやすい結果となる。