コンピュータに対し、データを元に役立つ規則などを発見させる(すなわち学習する)こと。およびその方法。
ニューラルネットワークから歴史は始まり近年は確率統計の観点から研究されることが多い。 統計の観点から見た場合、与えられたデータに対してモデルを当てはめているだけである。 モデルが複雑である点で従来の統計学と異なっている。
以下、有名な確率モデル
はじめに こんにちは. マイクロアドで機械学習エンジニアをしている福島です. 主に広告のClick Through Rate (CTR)予測やReal-Time-Bidding (RTB)の入札最適化を担当しています. 今回はマイクロアドでのCTR予測における確率補正について紹介したいと思います. はじめに CTR予測とは 問題1 学習データが不均衡 問題2 機械学習モデルの出力を確率として扱うのは不適切な場合がある 問題3 学習データの信頼度が高くない CTR予測における確率補正 アンダーサンプリングによって生じたバイアスの除去 Isotonic Regressionによる確率補正 確率補正…
ソフトウェアエンジニアとして今後、少なくともリテラシーとして機械学習を知っておく必要があるだろうと思うこと数年。 backflip.hatenablog.com で概要把握できたので、具体的な勉強を始めるにあたり良さそうな本を調べたところ、 基本を手を動かしながら理解できるこの本の評判が良かったのでこれを読むことにした。 電子書籍版がなかったので実体で購入。 ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装作者:斎藤 康毅発売日: 2016/09/24メディア: 単行本(ソフトカバー) 実際読みはじめてみて、非常にわかりやすい。 以前本屋で立ち読みした…
こんにちは。こーたろーです。 本日もこちら! やっていきましょう!第2章のSection 009です! 前々回は全結合の多層パーセプトロン(MLP)で、手書き数字の識別を行いました。 今回は別の画像識別を行っていきます。 「とりあえず動かす!」をテーマにやっているため、とりあえずプログラムを写経して・・・・ どのような処理になっているかを把握します。 以下、こんな感じです。 今回はファッション画像データの分類を行ていきます。 使用するのはFashion MNISTという衣類データが格納されているデータセットを利用します。 1.ライブラリーインポート 2.データセットのロード 3.データの確認 …
こんな方におすすめ 機械学習でも必要な「線形基底関数モデル」の基本的な内容について知りたい。 この記事では、線形回帰モデルの基礎概念のまとめを行います。 「これから、機械学習やディープラーニングの学習をしたいから、その基本となる線形回帰モデルの理解を深めたい」という方に向けた記事になります。 前提知識 線形回帰モデル 行列 目次 目次 一言で、線形基底関数モデルとは 単変数の線形回帰モデル 多変数の線形回帰モデル 線形基底関数モデル 基底関数 参考 一言で、線形基底関数モデルとは 一般的なデータ解析のモデルの1つである線形回帰モデルを一般化して、どのような関数でも適用できるような形式 単変数の…
はじめに 近年の音声合成は以下のような構造をとることが多いです。 今まで私は主に音響モデル部分を中心に記事を書いてきました。 しかし意外と重要なのがこのテキスト処理部分です。今回はテキスト処理についてまとめていきます。 テキスト処理ライブラリpyopenjtalk 私も最初は自分でテキスト処理の部分を作っていたのですが、なかなか難しいです。 そこで色々調べてみたところ、pyopenjtalkというテキスト処理のライブラリを知りました。 結論から言うと、日本語のテキスト処理に関してはpyopenjtalkライブラリを使っていればそれで問題ないレベルで素晴らしいライブラリです。 GitHub - …
まとめ 不均衡なデータの分類器を学習するときはundersampling+baggingすべし。 特に以下の場合に、コストを調整する手法やoversampling(SMOTEなど)に対して優れている。 次元数が多い 少数クラスのデータ数(の比率)が少ない 学習データの規模が小さい きっかけ 不均衡なデータを扱う問題に遭遇したので、先人たちの工夫について調べていたところ、以下のツイートを発見した。 imbalanced data に対する対処を勉強していたのだけど,[Wallace et al. ICDM'11] https://t.co/ltQ942lKPm … で「undersampling…
こんにちは。 こーたろーです。 本日も引き続き、「図解速習DEEP LEARNING」 の第2章を行っていきます。 今回は、Web上でニューラルネットワークを体感できるツール「A Neaural Network Playground」を使って、視覚的にニューラルネットワークを体験してみます。 A Neural Network Playground ↑こちらのサイトです。 こちらで色の分類を体感してみます。 回帰、分類ともにできるようですが、今回は分類をやってみました。 青と橙色を分類するモデルを作成できます。 学習データは、 テストデータについては、 こちらのようになっています。 学習前の状態…
久しぶりにAI関連の記事を読みたいと思い、Google Reseachの2020の纏め記事を見て初めて知ったのですが、Googleは機械翻訳の実験として600 Billion個のパラメータを持ったモデル(1パラメータが4Byteとすると2.4TB)を2048台のTPU v3で学習させるという超大規模な実験をやってますね。2048代のTPU v3を4日間使ったので、一般の人が使った場合の利用料金を計算すると、2048[TPU]/32[TPU/v3-32-pod]*32[$/hours]*24[hours/day]*4[day]=$196,608=約2000万円です。一回の試行でこれだけのお金が掛…
こんにちは。 こーたろーです。 本日は、「図解速習DEEP LEARNING」 の第2章です。 第2章では、Tensorflowで手書き文字識別を行っています。 他の本でもよくあるMNISTのデータで分類ですね。 早速やってみました。 環境は Google Colaboratory で、Python3、GPU使用でやっていきます。 Tensorflowチュートリアル を利用したコーディングとなります。 コードの参照元は、tensorflowチュートリアル では早速。 1.ライブラリーのインポート 2.MINISTデータセットのロード 3.データの形を確認してみる 4.MINISTの文字画像を読…
こんにちは。こーたろーです。 今日から、データサイエンティストとしてのアウトプットとして、ブログを始めることにしました。是非、データサイエンティストを目指す方々の参考になればと思っています。 また私自身、勉強中な部分も多くあるため、実際に感じている疑問などをブログで書いていき、読んでくださる皆さんが共感が得られるような内容にできればと考えています。 取組むジャンルは様々に考えています。もちろん、データサイエンスが中心です。 第1弾は、深層学習・Deep Learning を動かしてみた!ということで、教材を1冊やってみたいと思います。 今回の図書はこちらです! ※アフィリエイトをやっていないの…
こんにちは、2020年3月にastamuseに入社したYNと申します。本ブログを書くのははじめてです。どうぞよろしくお願いいたします。 今回は個人的な趣味で、TensorFlowのMetricsやLossesを使ってXGBoostを学習する方法について紹介したいと思います。 動機 GPUの普及もあってか、XGBoostのようなGBDT (Gradient Boosting Decision Tree) 系のライブラリでもGPUサポートがされるようになりました。ところが、XGBoostのV1.3.0のドキュメントを見ると例えばaucprはGPU対応されていません。また、多くのLossがXGBoo…
はじめてブログを投稿しようと思い立ち今ここで文章を書いています。普段あまり文章を書くことがない自分にとっては新鮮な出来事です。 特に何かを発信することはないし、なにかマネタイズしてやろうともおもわない。 じゃあお前は何を書くんだと言われれば、「いやまあなんとなくはじめてみただけだし、、、」と答えるだけです。 当面はなにかテーマを決めることもなく、これが友達や知り合いに見られても恥ずかしくない程度に色々と書き記すことにしようと思います。 2021年の目標 今回は目標を公言して、投稿を終えようと思います。社会人になってから(社会人って言い忘れてたが)、年末年始に反省と目標をメモに書いています。 こ…
1. 予想数値について 2. 印について 3. 推奨馬について 4. (注意)除外される馬について 5. 一部の馬について注意点 6. 予想数値についての補足 7. 馬券の購入について 2021/01/09 うまたんver1.1 update 2021/01/18 はてなブログに移行 1. 予想数値について うまたんで提供している予想数値は、3着以内にその馬が入るであろう確率を示しています。つまりこの数値が高ければ高いほど、馬券に絡む確率が大きいということです。参考として、例としてジャパンCの予想数値を貼っておきます。[ ]内が予測数値です。 2. 印について 各馬につけている印は正直言ってた…
どうも、かわばっちゃんです。 今回はランダムフォレストについて紹介します。 ランダムフォレストとは 機械学習のアルゴリズムの一つです。 複数の決定木による学習器を統合し、汎化性能を向上させるアンサンブル学習アルゴリズムです。 主に、分類や値予測に使用されます。 特徴としては ・決定木よりも分類や値予測の性能が良い ・非線形関係も分析可能 ・過学習が生じない 複数の決定木を使った後、分類の用途で使う場合は決定木の結果を多数決で判断し、値予測に使う場合は決定木の結果を平均します。 機械学習で度々使われる手法なので、覚えておくと良いと思います。
家のゲーム用パソコンのGPUを使ってスーパーマリオの強化学習の続きをやってみました。 これまでの取り組み a1026302.hatenablog.coma1026302.hatenablog.coma1026302.hatenablog.com GPUに切り替えて苦労したところ GPUメモリ不足 現象 学習中に以下のメッセージを出力して処理が中断してしまい困りました。 RuntimeError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 4.00 GiB total capacity; 2.70 GiB already al…
「まぐまぐ!」でメルマガ「知らなかった!中国ITを深く理解するためのキーワード」を発行しています。 明日、vol. 055が発行になります。 今、ネット広告が大きな課題に直面しています。ネットを利用すれば、どこにでも広告が表示されることはどなたもご存知のことです。多くのメディアは、その広告掲載料で運営をされていて、これにより、私たちは無料でニュースその他の有用な情報に触れることができるのですから、ある意味、素晴らしい発明だったことは間違いありません。 しかし、ひとつ期待を裏切ったのは、ネット広告の技術的進化があまりにも遅い、あるいは進化の方向が私たちの望んでいる方向とは違っていたことです。グー…
更新日時 2021/01/25/07:00 Qiita Trends Daily 1位 ※前日1位 TypeScript,Firebase,React,react-hooks Qiita Trends Daily 2位 ※前日3位 WordPress,サーバー管理,サイト制作,WordPressプラグイン Qiita Trends Daily 3位 [New] GitHub,AWS,初心者向け,アクセスキー Qiita Trends Daily 4位 ※前日2位 Qt,Line,TWELite,RaspberryPiZeroW Qiita Trends Daily 5位 ※前日5位 転職,未経…
セキュリティ Edge 新機能盛りだくさんの「Microsoft Edge 88」が正式公開 ~サイドバー検索や新しい履歴ポップアップ - 窓の杜 「Edge 88」ではパスワードジェネレーターやパスワードモニターを追加するなど、セキュリティとプライバシー保護関連の機能を大幅に強化。ユーザーインターフェイスやパフォーマンス関連の改善も多数盛り込まれている。 新機能盛りだくさんの「Microsoft Edge 88」が正式公開 ~サイドバー検索や新しい履歴ポップアップ - 窓の杜 セキュリティ更新プログラム ガイド - Microsoft GitHubのセキュリティ機能:2020年のハイライト …
先日購入した書籍でUnityを使って機械学習に入門しようと思ったのだが、環境構築で派手に躓いてしまった。最終的にライブラリの公式サイトに従ってなんとかスタートラインに立つことができたのでそのあたりの苦労を記しておこうと思う。 購入した書籍 Unity ML-Agents 実践ゲームプログラミング v1.1対応版 (Unityではじめる機械学習・強化学習)作者:布留川 英一発売日: 2020/08/14メディア: 単行本こちらの書籍で今回躓いたのだが、けっして内容や構成が悪い本ではない。ただ機会学習の分野はまだまだ伸びているとろこなので新陳代謝が激しく、ごく短い期間でツールやライブラリのバージョ…
今日は起きたら、12時過ぎだった。 今日も、明日も雨らしいのでポタリングは中止だな・・。 さて、昨日12時ぐらいに寝たので12時間寝ていたことになる。 睡眠時無呼吸症候群を持っていることが若いころに分かっているので おそらくそれの影響だろう。 痩せて健康を取り戻さないと・・。 良く寝たので、久々に競馬の夢を見た。 1枠1番の複勝を買って、3着で、2~3倍ぐらいの馬券を当てた夢だった。 なので今日は競馬をやってしまうかなー。と思っていたのだが、 無事賭けることもなく、4時過ぎを迎えれてホッとしているところだ。 最近、倹約に興味が出てきた。 競馬をやっているときは、「固定費の見直し」なんて全く興味…
- はじめに - 本記事では、Rustで扱える機械学習関連クレートをまとめる。普段Pythonで機械学習プロジェクトを遂行する人がRustに移行する事を想定して書くメモ書きになるが、もしかすると長らくRustでMLをやっていた人と視点の違いがあるかもしれない。 - はじめに - - 全体感 - - 機械学習足回り関連のクレート - Jupyter Notebook Numpy/Scipy Pandas 画像処理 形態素解析/tokenize - scikit-learn的なやつ - 各ライブラリと特徴比較 - Gradient Boosting - XGBoost LightGBM CatBo…
仕事でひーひー言いながら、ゲーム軽くやってたら土曜まで終わってた。 どうも、ツイッター全然呟けてない系のそよです。 頭の中で考え巡ってると、呟きの方まで手に回ってないことに気づきました。 もしかしたら、僕は考えてから話すタイプなのかもしれない。(確証はない) そんな話はさておき。近況ちょいと書いておきます。 ツイッター浮上出来てなくても、これを書いておけば生存報告代わりになるはず。 とりあえず3題に分けて書きました。読むなら上から順を推奨します。 (雑な文があれば、軽いコメントで流してもらえると幸いです。) <スイッチを買った話> 先週あたり?にツイッターでスイッチ買った報告をしましたが、前振…
今日は昼頃起きてpythonの勉強ちょろちょろ進めて昼寝してyoutube見てまたpythonいじったりしてたらあっという間にこの時間よ、時空が歪んでいますか? 年末くらいからTwitterの人の機械学習勉強会てきなやつに参加してたけど、蓋開けてみたら ・基本は独学で ・プロダクトがしがし作って行きましょう! みたいな感じでなんか熱量高めだったので完全にrom専・離脱勢になってしまってるんだけど、きっかけにはなっているので気が向いた時に勉強していてえらいね。仕事で必要なのもあるんだけど。 なんかなーーー、IT系のひとがプロダクト作るときに"ものづくり"って言葉使うのめっっっっっちゃ違和感あるん…
●インスタンスメタデータ 実行中のインスタンスを構成または管理するために 使用できるインスタンスに関するデータ インスタンスメタデータは、ホスト名・イベント 及びセキュリティグループなどのカテゴリに割り当てられる これを利用してインスタンスの構成情報などの基本情報を 取得するなどできるため自動化プロセス設定には利用されない ●T3インスタンス ベースラインレベルのCPUパフォーマンスを提供する 次世代のバースト可能な汎用インスタンスタイプで いつでも必要な時間だけCPU利用率をバーストさせることが可能 T3インスタンスはバランスのとれたコンピューティング、 メモリ及びネットワークのリソースを提…
DataRobotのブログ記事統計解析と機械学習:要因分析からの考察(Part 1, Part 2)を読んで参考になった点のメモ。 (記事内の単語は、自分が分かりやすいように言い換えてます) はじめに 機械学習にとって要因分析は、予測や分類を行うのに比べてレベルの高い課題。 その理由は、機械学習においては説明変数と目的変数の相関関係は明らかにできるが、因果関係があるか否かの検証においてはそれだけでは不十分であるため。 因果関係を明らかにするアプローチとして要因実験が挙げられるが、これは因子の数その値が増えた時に検討数が爆発的に増えてしまう問題がある。 (要因実験:実験計画法などで計画された実験…
2021-01-23 やったこと 読書:『習得への情熱』 英検の英作文の練習 学んだこと・感想 英作文の練習をしたり、機械学習の論文を眺めたり、読書をしたりした 今週やること 娘の通院:完了 英検の受験
前回の記事では1月11日(月)に行われた中山、中京それぞれのメインレースの順位予想をAIによって行いました。 www.null10blg.com 今回の記事では、その結果の確認と考察を行いたいと思います。 以下が、メインレースの予想とその結果です。 フェアリーステークス(中山) 予想 テンハッピーローズ クールキャット ファインルージュ ベッラノーヴァ タイニーロマンス シャドウファックス 結果 ファインルージュ ホウオウウイクセル ベッラノーヴァ テンハッピーローズ ネクストストーリー タイニーロマンス フェアリーステークスでは、予想の6頭のうち、2頭が複勝圏内にきました。また、上位6頭まで…