コンピュータに対し、データを元に役立つ規則などを発見させる(すなわち学習する)こと。およびその方法。
ニューラルネットワークから歴史は始まり近年は確率統計の観点から研究されることが多い。 統計の観点から見た場合、与えられたデータに対してモデルを当てはめているだけである。 モデルが複雑である点で従来の統計学と異なっている。
以下、有名な確率モデル
はじめてブログを投稿しようと思い立ち今ここで文章を書いています。普段あまり文章を書くことがない自分にとっては新鮮な出来事です。 特に何かを発信することはないし、なにかマネタイズしてやろうともおもわない。 じゃあお前は何を書くんだと言われれば、「いやまあなんとなくはじめてみただけだし、、、」と答えるだけです。 当面はなにかテーマを決めることもなく、これが友達や知り合いに見られても恥ずかしくない程度に色々と書き記すことにしようと思います。 2021年の目標 今回は目標を公言して、投稿を終えようと思います。社会人になってから(社会人って言い忘れてたが)、年末年始に反省と目標をメモに書いています。 こ…
1. 予想数値について 2. 印について 3. 推奨馬について 4. (注意)除外される馬について 5. 一部の馬について注意点 6. 予想数値についての補足 7. 馬券の購入について 2021/01/09 うまたんver1.1 update 2021/01/18 はてなブログに移行 1. 予想数値について うまたんで提供している予想数値は、3着以内にその馬が入るであろう確率を示しています。つまりこの数値が高ければ高いほど、馬券に絡む確率が大きいということです。参考として、先日行われましたジャパンCの予想数値を貼っておきます。[ ]内が予測数値です。 2. 印について 各馬につけている印は正直…
どうも、かわばっちゃんです。 今回はランダムフォレストについて紹介します。 ランダムフォレストとは 機械学習のアルゴリズムの一つです。 複数の決定木による学習器を統合し、汎化性能を向上させるアンサンブル学習アルゴリズムです。 主に、分類や値予測に使用されます。 特徴としては ・決定木よりも分類や値予測の性能が良い ・非線形関係も分析可能 ・過学習が生じない 複数の決定木を使った後、分類の用途で使う場合は決定木の結果を多数決で判断し、値予測に使う場合は決定木の結果を平均します。 機械学習で度々使われる手法なので、覚えておくと良いと思います。
家のゲーム用パソコンのGPUを使ってスーパーマリオの強化学習の続きをやってみました。 これまでの取り組み a1026302.hatenablog.coma1026302.hatenablog.coma1026302.hatenablog.com GPUに切り替えて苦労したところ GPUメモリ不足 現象 学習中に以下のメッセージを出力して処理が中断してしまい困りました。 RuntimeError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 4.00 GiB total capacity; 2.70 GiB already al…
今回はディープラーニング入門編のその1です。まずは簡単な概念から説明していき、最終的にはPythonでニューラルネットワークを構築していきます。 (※)Keras、Scikit-learnなどのライブラリーには直ぐに使える深層学習のフレームワークが多数ありますが、今回はディープラーニングを理解するためお馴染みのnumpyとmatplotlibのみ使用して構築します。 【ディープラーニングとは】 そもそもディープラーニングは、人間の脳のニューラルネットワークに触発された機械学習の一分野です。10年以上前からある理論ですが、計算の進歩と膨大な量のデータの可用性により、従来の機械学習よりも優れている…
「キカガク」の「脱ブラックボックスコース」を受講している。 www.kikagaku.ai ずっと機械学習には興味があったものの、忙しさを理由にしたり、とっかかりが見つけられなかったりで、なかなか学習に手をつけられなかったのだけれど、正月にこの講座を発見して、「1月中には必ず少しだけでも始めよう」と決意し、本日ようやく始めることになった。 講義の内容は、(多少予想はしていたけど)まずは数学の解説だった。最後に数学を勉強したのは高校時代で、もう10年以上数学からはなれている。そして、(この業界にいるにも関わらず)数学は不得手に近い。確率論や期待値は理解できたけど*1、幾何学的な図形の証明問題や三…
注意書き 当方情報系修士二年生、研究はソフトウェア開発にGCNを適用する研究をしています。 フリーランスでPythonやgasを用いた開発も行なっているのでそういう観点からM1 Macbookのレビューをします。 そのためここではweb開発やアプリケーション開発については取り上げません。 はじめに 修論執筆中の恭也Pです。昨年の6月からフリーランスエンジニアとして活動をし始めてた。始めたはいいものの、「働くのはいいけど扶養を外れるとまじで困る」と親に注意されたました。そこでどうにか経費をいうものを使ってみたいと思い、タイミングもいいと思いMacbookPro(学割で17万円、卒業前がお得)を買…
皆さん機械学習やプログラミングの教科書を見ると、学習の結果予想した値の変数名をy_hatとしているのをよく見かけると思います。 column0001 このy_hat、一体何かの略なのでしょうか? 実は統計用語と深い関係があります。下の式を見てください。 column0001 この式は以前行った最小二乗回帰の概念の式ですが、ここでアルファベットの「y」に注目すると「^」マークが上についているのがお分かりになりますか? 小さな帽子(hat)が乗っているみたいで可愛いですね。 この記号を英語で言うと「y_hat」となり、Pythonを含めた多くのプログラミング言語でこの記号自体出力できない、もしくは…
前回に引き続きここでは最小二乗回帰を使ってデータセットの関係性を予測していきたいと思います。 【前回のまとめ】 一次関数と仮定しての回帰は正直かなり微妙な出来だったと思います(下図)。これで「予想できました!」と言われても・・・って感じですね。そこで今回は関数の次数を上げて、2~4次関数と仮定してデータセットを予想してみたいと思います。 【コード】 0004-1OLSregression(2) 前回使用したnp.polyfit()を今回も使います。16行目以降にそれぞれ、2~4次関数と仮定して回帰(予想)をしてくれるように書いています。25行目以降はグラフに重ねて表示してくれるプログラムです。…
ここでは以前作成したテストデータを使います。テストデータを与えて最小二乗回帰という方法を使用して入力と出力の関係性を予想できるでしょうか?? 【最小二乗回帰とは】 そもそも統計的回帰の問題では入力値と出力値の間の関数関係に可能な限り近似する関数を見つけることが目的です。 例えば、今回の入力値と出力値が一次関数の関係性なるべくがあると予想しましょう。(どう見ても違いますがとりあえずです!) 0004-1OLSregression 当然とりあえずで引いている線なので作ったデータセットとは乖離していますよね?この乖離をなるべく小さくした線を最終的に引くことができればうまく予想できたといえそうです!で…
行列バランシングと言えば,sinkhornですが,今回はこの論文を実装しました. arxiv.org (論文では自然勾配法使ってますが,ここでは,1次までしか実装してないです) #include <iostream> #include <Eigen/Dense> #include <vector> #include <cmath> #include <time.h> #include <cstdio> #include <fstream> using namespace std; using namespace Eigen; MatrixXd balance(MatrixXd& P, doub…
ここでは今後機械学習やディープラーニングの学習を進めていくためのテストデータを作成します。 【使用するメソッド】 numpy.linspace() 線形に等間隔な数列を生成します。 pylab.plt.plot() グラフを描画します。 【コード】 0003-2create_testdata 今回は y=3x^3 - 4x^2 となるような三次方程式を作ってみました。描画すると以下のようになります。 0003-2create_testdata 今後はプログラムにこの赤い点の座標だけを与えて、先ほどの三次方程式を見つけてくれるかを見ていきます! 実際にプログラムにテストデータとして入力する際は以…
スーパーマリオの1-1をクリアさせたかったのですが、自分の低スペックパソコンだと「episodes」を500以上に設定すると処理が途中で落ちてしまう。 チュートリアルをみると「episodes」を40000ぐらいにすればクリアできるかもよとあるけど。。。(*´з`) いろいろ設定を変えたりしたけど。。。なかなかうまくいきません。 GPUほしいなぁ。。。今日は試行錯誤したプレイをまとめてみました。 プログラムは#2のときのものを流用してます。 a1026302.hatenablog.com 動きを追加 actionについて 前回 今回 プレイ動画 パラメータ変更 downsampleで学習 前回…
ここでは強化学習の一例で作成した、コイントスの結果を予測するプログラムの解説を行います。 ssp はコインの性質、asp はプログラムの賭け方 簡易版でもご説明した通りsspでは80%の確率で表、20%の確率で裏というこのコインの性質を定義しています。「1」が表、「0」を裏として、この数列からランダムに数字を一つ取り出すと4/5の確率(80%)で「1」=表がでます。 この数列はプログラムがどのように賭けるかを定義しています。この数列からランダムに数字を一つ取り出すと「1」=表に賭ける確率も「0」=裏に賭ける確率も同じく50%ずつです。今回行った強化学習ではこの数列(賭け方)をコインの特性に合わ…
ここでは強化学習の一例としてコイントスの結果を予測するプログラムを作成します。【強化学習とは】 そもそも強化学習とは機械学習手法の一つで、プログラム自体が試行錯誤しながら最適な制御を実現してくれます。学習してもらうデータに正解、不正解はありませんが、目的として設定する「報酬」を最大化するための行動を学習するものです。 今回は80%の確率で表、20%の確率で裏、となる特殊なコインがあったとします。表裏を予想して最大の報酬を得れるように、賭け予想してもらうプログラムを作りたいです。そのためにはどのようにプログラムに学習させれば良いでしょうか。(もちろんこの特殊なコインのことはプログラムは知らせずに…
「大自然を代表する海」と「ネットの海の広大さ」は何処かで繋がってる気も… シミルボン 「ネットの海は広大だわ」海を描くマンガの魅力について。『海獣の子供』『ナチュン』
×387 Amazon.co.jp: 事実はなぜ人の意見を変えられないのか eBook: ターリ・シャーロット, 上原直子: Kindleストア ×267 [タイトルが取得できませんでした] ×181 [タイトルが取得できませんでした] ×101 Clean Coder Blog ×83 機械学習でFizzBuzzを実現する ×63 MEEET(ミート)- 3人でつながる未来の友だちマッチングサービス ×48 Googleのサイコロ機能が6面以外&複数振りにも対応! | ギズモード・ジャパン なぜ中間層は没落したのか:アメリカ二重経済のジレンマ | ピーター・テミン, Peter Temin,…
この記事は? 現在の企業のデータアーキテクチャ データアーキテクチャ失敗パターン 一元化されモノシリック パイプラインの分割 分断されたオーナーシップ 次世代のエンタープライズデータプラットフォームアーキテクチャ データと分散ドメイン駆動アーキテクチャの出会い ドメインに基づくデータ分解とオーナーシップ ソース志向のドメインデータ 分析者向けの共有されたドメインデータ ドメインの内部実装としての分散パイプライン データとプロダクトシンキングの出会い 製品としてのドメインデータ 発見可能 アドレッサブル 信頼して使えるデータ 自己記述型のセマンティクスと構文 相互運用可能であり、グローバルスタン…
今週の予定 ・統計web 20まで読了 ・udemy 「みんなのAI講座 ゼロからPythonで学ぶ人工知能と機械学習講座」 完了 ignateの運行予測コンペ提出 ・signate 「住宅市場価格の予測コンペ・signate 運行予測コンペ 提出 1・統計の学習を行った。 ・実践pythondデータ分析100本ノック ・kaggle住宅価格コンペ学習 ・signate運行予測コンペ提出 ・signate弁当コンペ学習 keep ・コンペ提出やudemyの学習完了など最低限のラインはクリアできた。 ・仕事をいつ辞めるか悩んでいたが、スクールのCAさんと相談し、決心がついた。マインドマップを作成…
機械学習でよく使われる損失関数。 エントロピー(Entropy) カルバック・ライブラー情報量(Kullback-Leibler divergence) 交差エントロピー エントロピー(Entropy) 1948年にShannonによって書かれた論文 (A Mathematical Theory of Communication) http://people.math.harvard.edu/~ctm/home/text/others/shannon/entropy/entropy.pdf 10ページに以下の文章が書かれています n個の事象(イベント)が起きる確率を$p_1, p_2, ...…
こんにちは。takapyです。 本日は「分析者のためのデータ解釈学入門」を読んだので、そのメモ書きです。 (完全に自分用の備忘録なので、雑になっています) 分析者のためのデータ解釈学入門 データの本質をとらえる技術作者:江崎貴裕発売日: 2020/12/15メディア: Kindle版 1部 データの性質に関する基礎知識 データを観測すること 様々なバイアス 測定基準に関するバイアス 選択バイアス 観測介入に起因するバイアス データの扱いに起因するバイアス 交絡因子と因果関係 データサンプリングの方法論 2部 データの分析に関する基礎知識 一変数データの振る舞い 変数間の関係を調べる 多変量デー…
はじめに 今回の本はこちらです。 str.toyokeizai.net 著者はコンサルの方です。 昨今、データ分析者の住み分けと必須スキルの定義づけが進んでいます。 例えば職種としてデータアナリスト、サイエンティスト、機械学習エンジニア、AIエンジニアetc...。それぞれ必要な割合は違うとしても必須スキルとして、①ビジネス力、②データサイエンス力、③データエンジニアリング力の3つはおおまかに共通しています。 そして結局のところ、データを根拠にビジネス課題に答える、意思決定させると言うところは全て同じ目標です。データサイエンスやエンジニアリングの技術云々は、そのための手段の一つに過ぎません。 …
こんにちは(^^) Apple に毒された人こと、ゆうです この前も iPhone 12 Pro と Apple Watch Series 6, Home Pod mini を買っちゃいました! え、お金...?知らん... 最近、Udemy というオンライン学習サービスを利用して Deep Learnig と画像判定 AI の作成について勉強したので、復習も兼ねて書き連ねたいと思います ご興味ある方は是非読んでいただけると嬉しいです! つくりたいもの 実行環境 開発フロー データ収集・生成 Flickr の利用と API Key の取得 データ収集プログラムの作成 データの前処理 画像の選定…
Udemyのコースを中心に紹介します。全て日本語で学べます。 Udemy 最安値 セール時期 【基礎・入門】 Python × ディープラーニング 基礎講座 応用 画像処理 書籍 Udemy 文章の自動生成 書籍 Udemy 偽物の顔画像の作成、強化学習、囲碁・将棋のAI 書籍 Udemy
ケモインフォマティクスと聞くと、機械学習的なアプローチを思い浮かべる人も多いかと思いますが、伝統的には、解析ツールを化学者に提供する、というのも重要な役割です。例えば Gaussian や GAMESS は有用な量子化学計算ソフトウェアですが、そのグラフィカルユーザーインターフェース(GUI)が使いやすいことも、広く普及した要因の一つだと思います。 論文で発表された解析用のツールなどはよく GitHub などに上がっているので、ケモインフォマティシャンなどはすぐに使える場合も多いですが、実験化学者の方々全員がプログラミングに精通しているわけではありません。解析ツールが現場で気軽に使われるために…
はじめに Azureのアプリケーション監視ツールである「Application Insights」。 この導入で躓いたので、勉強をを兼ねてその仕組み等々を書いていきたいと思います。 執筆経緯 業務でAzure Functionの開発をしていましたが、 ローカルで動くものが、Azure上ではうんともすんとも言わない。 しかも、リモートデバックでAzure上での動きを見ようにも通信が不安定ですぐに切れる。 エラーログも取得方法がわからず… そうこう調べているうちに辿り着いたのが件のApplication Insightsでした。 実行可否のモニタリングができると聞き、 試行錯誤しながらApplic…
t0rus.hatenablog.com 前回このブログのコンセプトを書きましたが、今回は具体的な勉強計画についてまとめてみようかなと思っています。 はじめに 勉強プラン データサイエンス全般 はじめに いきなり少し話が逸れますが、私は何かを学ぶ時は基本的に”守破離”*1の精神を大事にしています。この言葉自体を知ったのは大学生くらいの時だったと思うのですが、結構昔からこのスタイルでやっていました。何でこのスタイルに行き着いたのか考えてみたんですが、 割と早い段階で自分の才能に過剰な期待を持つのをやめた 優秀な方々が周りにいる環境に恵まれた ここら辺の理由が大きいと思っています。特に2点目の環境…
簡単にいろんなことができるのがPythonの良いところ とか書いたけど、実際にやるとデータを集めにゃならんしパラメタの調整もせねばならんからそう簡単でもないぞ。 などといいつつPythonで使えるopenCVという画像データを取り扱うライブラリを使ってインターネッツから拾ってきた「顔っぽく見える画像」に顔が含まれているかどうかの判定をするコードを(インターネッツに転がっていたコード事例を見ながら)書いてみたのでその結果を発表します。 顔判定するための情報(「カスケード分類器」と呼ばれる機能で利用されるXMLファイルで、正面顔とか笑顔とか左目などもあり)もインターネッツで公開されているやつを利用…
昨年友人より, 某コワーキングスペースの混雑度を見える化したいので, 機械学習部分を手伝ってほしいとの依頼があった. そこで, 混雑度を測るために, 各スペースの人物検出を行い, 定員に対してどの程度の人がいるか検知することにした. 関連記事: ・コワーキングスペースの「混雑度」を検出する(1) ・コワーキングスペースの「混雑度」を検出する(2) 最初, 手元にあったJetson Nano 4GB版で人物検出を動かして, そのイメージを使ってJetson Nano 2GBを動かそうとしたがダメだった. Jetson Nano 2GB版のSD Imageは4GB版とは異なっており, 以下はJet…