コンピュータに対し、データを元に役立つ規則などを発見させる(すなわち学習する)こと。およびその方法。
ニューラルネットワークから歴史は始まり近年は確率統計の観点から研究されることが多い。 統計の観点から見た場合、与えられたデータに対してモデルを当てはめているだけである。 モデルが複雑である点で従来の統計学と異なっている。
以下、有名な確率モデル
はじめに カルマンフィルター(1),(2)に続いて本エントリーでは、非線形なモデルに対してカルマンフィルターを用いるための方法についてまとめます。本稿で述べる内容については、線形モデルの場合のカルマンフィルターの理解を前提とします。線形モデルの場合のカルマンフィルターについては、過去にまとめておりますのでこちらも是非ご覧下さい。 biocv.hateblo.jp 具体的には、非線形モデルを線形近似する拡張カルマンフィルター(Extended Kalman FIlter : EKF)およびサンプル点を用いて分布を近似する無香カルマンフィルター(Unscented Kalman Filter:UK…
AIコード生成への過信は禁物 Qiitaに投稿しました Qiitaに「AIで生成されたコードの品質は低い」を投稿しました。 qiita.com 得られた知見など 論文の本題よりも周辺知識調べたところが面白かったです。 Googleのエンジニアが50行/日、Microsoft、Facebookのエンジニアが70行/日でスタートアップのエンジニアが860行/日だとすると人生燃やしている感じはしますね。 スタートアップだとアーキテクチャの変更が多く単にファイルの移動が多いということなのかもしれないですが。 ランキング参加中プログラミング
この記事は、量子サポートベクターマシーンを利用して、MNISTから配布されているデータベースの分類を行う方法をある程度略して説明するものです。変分量子計算の方法論は、機械学習における分類問題にも応用されています。その1つがQuantum Support Vector Machine(QSVM)です[1]。これはクラス分類問題において、評価関数に現れるカーネルを量子状態の内積で代用して、それを解くというものです。この方法において、過学習が抑えられるということが報告されています。本来ならば、実装してデータを採りたいところですが、手書き文字の認識分類をさせるだけでも画像を取り込んだ上に数字とアルファ…
LightGBMのver. 4.0.0で登場した量子化ですが、今はLightGBMも4.3.0が出て量子化についての不具合修正もすすんで安定して動くようになってきました。 論文をベースに、「どういう計算をしているのか」という理論面の概要と、実際に動かして「どれだけ計算速度や予測精度やモデルのファイルサイズが変わるのか」を見ていきたいと思います。 個人的に特に気になっているのはモデルのファイルサイズの減少です。 量子化の概要 LightGBMのような最近のGBDTで使われている決定木では、葉の出力は誤差関数の2次のテイラー近似をもとに、以下のように計算されます(このあたりはChen & Gues…
はじめに 本エントリーでは、一般の多次元のカルマンフィルターについてまとめます。カルマンフィルターの概要や式の解釈については以前のエントリー「カルマンフィルター(1) - 1次元の場合」で投稿させて頂きましたので、こちらもご覧頂ければと思います。 本稿では、多次元の場合の予測モデルと更新モデルについて式の導出を行います。また、実装上課題となる数値安定性を解決するために一般的に用いられているUD分解による定式化についても捕捉します。 カルマンフィルターのモデル 1次元の場合と同様に状態遷移モデルから予測モデルと更新モデルを記述します(図1)。 図1:状態遷移モデルのグラフ 状態量:$\bf{y_…
はじめに 以前のエントリーにて2変数正規分布の場合の条件付き分布について期待値と分散の導出を行いました。式の変形において特別な知識を要さないので、条件付き分布についての理解をまず2変数の場合で式展開を追いながらつかんでもらうのがよいかと思います。 biocv.hateblo.jp 本記事ではより一般的な多変数の場合の条件付き分布について期待値と分散の導出を行います。途中、式の変形にてブロック行列の逆行列の知識を用います。式の展開については、以下のQiitaの投稿を参考にさせて頂きました。 qiita.com 導出 任意の次元 $n \in N$の確率変数$X$が平均:$\mu$、分散:$\Si…
この記事について バックグラウンド 本業はTypeScriptを主に書いているWebエンジニアで社会人5年目。副業ではデータサイエンティスト/機械学習エンジニアをやっていてこちらも5年目。 この記事を書いた理由 最近読んだ「科学的根拠に基づく最高の勉強法」という本の中に、「思い出す頻度が高ければ高いほど定着する」という話があった。 なので、読んだ本の内容を思い出し定着させるきっかけとするためにこの記事を書いている。 科学的根拠に基づく最高の勉強法作者:安川 康介KADOKAWAAmazon 紹介する本のラインナップについて 統計や機械学習の理論をガチガチにするのは難しいと判断して、理論寄りの書…
前回の記事で、「安全は創発性であり、創発性は要素の知識からは演繹されえない」、「演繹できないような問題に対するエンジニアリングは難しい」ということを書いた。 それを書きながら、AI(機械学習)のことを連想した。 機械学習の品質確認の難しさ 機械学習を「帰納的プログラミング」、従来のプログラム開発を「演繹的プログラミング」とする対比がよくされる。 「機械学習工学に向けて」(丸山宏, 日本ソフトウェア科学会第34回大会)では、摂氏を華氏に変換するプログラムを例にとり、以下のような分かりやすい対比を示している。 演繹的プログラミング: "F = 1.8 x C + 32" という変換式(先験的知識)…
はじめに 初めまして、ecbeingのふっきーです。 配属当初よりマイクロサービス開発統括部のAiReco(アイレコ、旧:LightningRecommend)チームに所属しており、4月で3年目となりました。 AiRecoとは、ecbeingが提供するレコメンドツールです。 サービス名称にもついているようにAiRecoではAIを活用しており、AIがお客様に合う最適な商品を提案してくれます! 今回はそんなAiRecoのご紹介と、レコメンドの仕組みを簡単に説明したいと思います。 目次 はじめに 目次 ECサイトにおけるレコメンドとは AiRecoについて レコメンドタイプ オプション 仕組み デー…
Hugging Faceの数学モデルを使おうとしたら以下のエラーに見舞われました。OSError: open-math-mistral is not a local folder and is not a valid model identifier listed on 'https://huggingface.co/models' If this is a private repository, make sure to pass a token having permission to this repo either by logging in with `huggingface-cli…
AMD の Instinct MI300A APU は、従来のディスクリート GPU と比較して、HPC ワークロードのパフォーマンスを大幅に向上させる革新的な設計です。CPUとGPUを単一パッケージに統合することで、データ転送のボトルネックを排除し、電力効率を向上させます。 主要な特徴: CDNA 3 GPU アーキテクチャ 最大 24 個の Zen 4 CPU コア 最大 192 GB の HBM3 メモリ 5nm および 6nm プロセスで製造された最大 8 個のチップレットと 8 個のメモリスタック ユニファイドメモリアーキテクチャ 性能: OpenFOAM ベンチマークで、NVIDI…
2024年第1四半期の決算において、アマゾンはその歴史の中で特に注目すべき成果を挙げました。そして米国の企業で5社目となる時価総額2兆ドル以上の”2兆ドルクラブ”入りとなりそうです。 クラウド部門、特にAmazon Web Services(AWS)が驚異的な成長を遂げ、過去1年間で最も力強い売上高の伸びを記録しました。この成長は、企業が人工知能(AI)サービスを含む技術プロジェクトへの投資を再開したことによるもので、アマゾンにとって最も収益性の高い部門の一つが、これにより見事な回復を遂げたのです。 この四半期の成功は、AI技術とクラウドサービスの融合がもたらす新たな可能性を示唆しています。A…
以前,何処かのインターネット上の記事で読んだのだが,一日に起こった悪かった事は一切記録せず,一日に起こった良かった事を,最低3つ意地でも見つけ,日記等に記録する日課を継続すると,精神状態の改善を図る事が出来るという.「一体,何を根拠にそんな事を言っているんだ?」と思う方も多かったのかもしれない記事だったのかもしれないが,私は,合理性を感じた.その科学的根拠を,以下に何点か提示しよう.・根拠1人間は認知科学的に言語化されていない事を認識出来ないと言う.上記は,トンデモ科学者としてネット上では有名な,苫米地英人大先生の受け売りだが,これは,個人的には非常に頷ける話だ.(※私は彼の事,結構好きですよ…
sshを使ってリモートのサーバー上で開発を行っているとします。このとき、基本的にはほとんど全てのこと(コンパイルや機械学習など計算を伴うものや、ファイル操作など)はsshで入った先のリモート上(ターミナル、あるいはVS CodeならRemote SSH拡張機能)で行えばいいのですが、ファイルの一覧・リネーム(移動)などはlsやmvを手打ちするよりも視覚的にわかりやすい手元のファイルマネージャーでやりたいという需要があります。 そこで使われるのがrclone・sshfsなどのリモートのディレクトリをマウントしてくれるソフトウェアです。なおsshfsは開発終了になってしまったようなので現在はrcl…
概要 Hydra を使って config 管理はできたものの、中間生成物のキャッシュが上手に無駄なく管理できないでいました。つまり hydra でパイプラインチックなものを上手く作りたいですが、できれば既存のツールで実現したいです。イメージはこちらの記事のような感じ。 zenn.dev preprocess feature_extract train というプロセスがあり、各プロセスで中間生成物を生成するケースを考える。 中間生成物を生成することのメリットは、各処理で同じ処理(結果が同じになる処理)を複数回実行しないことで計算コストが削減できることである。 各プロセスにおける処理は入力データと…
プログラミングの世界は急速に進化しており、プログラマーとしての将来性は非常に高いと言われています。 この記事では、プログラマーの将来性に焦点を当て、どのようにして将来性を高めるかや、未来のプログラミングトレンド、求められるスキルなどについて探っていきます。 プログラマーになりたいと考えている方や、プログラマーとしてのキャリアをさらに伸ばしたい方にとって役立つ情報を提供します。 では、早速プログラマーの将来性について見ていきましょう。 【PR】副業・フリーランスを目指す方におすすめのプログラミングスクール ChapterTwo(チャプターツー) 1.プログラマーの将来性とは? 2.将来性を高める…
人は「治る」システムを持っている すべての秩序あるものは、その秩序が壊れていく「エントロピーの増大」という法則の中にあり、命もその一つです。 しかし命はそのエネルギーが尽きるまで、生を保とうというシステムを備えています。例えば、ケガをして血が出てしまった時にそれを止めて傷口を修復していく力。 骨が折れてしまった時にそれをくっつけ直し元に戻そうとする力。私達は「治る」システムをすでに体に常備しています。 「当たり前」を司る法則散らかった部屋は勝手に片付かないし、冷めてしまったお茶が自然に再沸騰することはない。 こうした一見「当たり前のこと」は、じつは「エントロピー増大の法則」という物理法則で説明…
もっと早く読もうと思っていたのだが読めたので。 データエンジニアリングの基礎 ―データプロジェクトで失敗しないために作者:Joe Reis,Matt Housleyオーム社Amazon 目次。 1章 データエンジニアリング概説 2章 データエンジニアリングライフサイクル 3章 適切なデータアーキテクチャの設計 4章 データエンジニアリングライフサイクルにおけるテクノロジの選択 5章 ソースシステムにおけるデータ生成 6章 ストレージへの保存 7章 データ取り込み 8章 クエリ、データモデリング、変換 9章 アナリティクス、機械学習、リバースETL へのデータの提供 10章 セキュリティとプライ…
AIマーケティングは、最新の技術である人工知能(AI)を活用し、効果的なマーケティング戦略を構築する新しい分野です。この分野では、AIの力を借りて、データの分析や予測を行い、より的確なターゲット広告やパーソナライズドなコンテンツを提供することが可能となります。初心者でも取り組みやすいAIマーケティングの最初のステップを紹介します。まず、AIマーケターになるためには、AIマーケティングの基礎知識を身につける必要があります。具体的には、AIの原理やアルゴリズム、データ分析の方法などを学ぶことが求められます。また、プログラミングや統計解析のスキルも必要です。次に、AIマーケターに必要なスキルセットに…
これなーに 転職のタイミングで何を考えているかを書いておく。 事業会社から受託(機能)会社に行く。 考えたことや大切にしたいことなどを記載。 目次 これなーに 目次 簡単な経歴 転職について 1) 初めてのレコメンドへの挑戦 2) データ解析においてはジュニアではなく、シニアな立ち位置 3) 初めての事業会社 受託会社と事業会社 大切にすること 世の中にサービスを出す 扱えるデータや技術の種類 好まれる動き方 なぜ転職するのか? 転職先でやりたいこと 1) 周囲と協力して成果創出する 2) 多様なデータ・技術に触れる アクションプラン 簡単な経歴 社会人歴14年。 在籍会社数4つ。 次で5つ目…
シグモイド曲線は、数学、統計学、機械学習など、多岐にわたる分野で使用される特別な関数の一つです。この関数は、そのS字形のグラフから識別されることが多く、様々な自然現象や生物学的プロセス、人工知能の分野でのデータモデリングに広く応用されています。 シグモイド関数の定義 シグモイド関数の最も一般的な形は、次の式で表されます。 �(�)=11+�−�f(x)=1+e−x1 ここで、 �(�)f(x) はシグモイド関数の値であり、 �e は自然対数の底で、約2.71828の値を持ち、 �x は任意の実数です。 特徴 S字形曲線: シグモイド関数の最も顕著な特徴は、そのS字形(シグモイド形)のグラフで…
日本の太陽光発電中国サイバー攻撃について 日本の太陽光発電中国サイバー攻撃 近年、中国によるサイバー攻撃が活発化しており、日本企業もその標的になっています。特に、再生可能エネルギー分野への攻撃が深刻化しており、太陽光発電施設も例外ではありません。 2024年5月には、日本の太陽光発電施設が中国のハッカー集団によるサイバー攻撃を受け、遠隔監視機器が乗っ取られました。この攻撃により、約800台の機器が不正アクセスされ、インターネットバンキングによる預金の不正送金に悪用されました。 この事件は、日本の太陽光発電施設が中国のサイバー攻撃に対して脆弱であることを示しています。今後、さらに巧妙な攻撃が行わ…
※This page uses affiliate advertising. ※本ページは、アフィリエイト広告を利用しています。 Amazon.co.jp: Amazon Prime Amazon.co.jp: Prime Student - 学生のためのお得なプログラム Kindle Unlimitedにサインアップして無料体験に登録する Amazon.co.jp: Amazon Music Unlimited Amazon.co.jp: Audibleオーディオブック テクノロジ系・技術要素・データベースの応用 1.データウェアハウス(DWH:dateware house) ①データマート…
『統計学が最強の学問である』 概要 章立て ランダム化比較実験 終盤 個人的見解 久しぶりに書評いきます。 ここのところお休みも多く、 家でゴロゴロする時間が取れましたので、 書籍もガッツリ消化できました。 相変わらず月4冊ずつ消化しておりますが、 とくにここ最近で良かったものを。 『統計学が最強の学問である』 出版社:ダイヤモンド社、著者:西内啓 おススメ度:★★★★(4/5) なんとも自己啓発本くさいタイトルではありますが、 中身はマジメな統計の内容です。 といっても計算ゴリゴリという内容ではなくて、 「統計が実生活や社会でこんな風に役立っていますよ」 という切り口での読み物って感じ。 ・…