コンピュータに対し、データを元に役立つ規則などを発見させる(すなわち学習する)こと。およびその方法。
ニューラルネットワークから歴史は始まり近年は確率統計の観点から研究されることが多い。 統計の観点から見た場合、与えられたデータに対してモデルを当てはめているだけである。 モデルが複雑である点で従来の統計学と異なっている。
以下、有名な確率モデル
AIの予想結果 今回の自作AIシステムの予想は このようになりました! HOMEAWAY予想102 新潟浦和016.7%46.2%37.1% 京都福岡225.1%26.7%48.2% 湘南町田233.1%29.5%37.5% 川崎F札幌137.8%31.9%30.3% 名古屋G大阪229.1%31.1%39.8% 磐田鳥栖142.2%37.8%19.9% C大阪神戸022.3%43.8%33.9% FC東京柏232.3%23.9%43.8% 鹿島東京V139.4%31.5%29.1% 熊本横浜FC024.3%37.8%37.8% 仙台群馬149.5%29.1%21.4% いわき山口023.9%…
はじめに 本エントリーでは、カルマンフィルターで用いる観測データの一貫性チェックについて説明します。実用において観測は非常にノイジーであり、時に異常値をを含んだものとなります。そのため、外れ値をそのまま統合してしまうと状態推定が不安定になってしまう恐れがあります。そこで、毎回の更新ステップ時に得られている観測を統合すべきか否かを判断し、大きく外れた観測が得られている場合はその観測を拒否することで安定したフィルター状態を保つような仕組みが一般的に採用されています。一貫性をチェックする方法は幾つか提案がされていますが、本エントリーではその中でもひろく用いられているNormalized Innova…
こんにちは、SREグループの 水口 です。 この記事では、スタディプラスが運営する「Studyplus Engineering Podcast」の公開までに行なっているPodcastのShow Notesを作成する過程について紹介します。 Show Notesと生成AI活用のモチベーションについて Show NotesとはPodcastのエピソード内で何が起こったかを詳細にまとめたもので、一般的には以下の内容が記載されます。 トピックの要約 言及された話題に関するリンク Podcastの聴取や購読などのCTA(Call To Action / 行動喚起) また、収録・編集ツールを提供するRiv…
はじめに カルマンフィルター(1),(2)に続いて本エントリーでは、非線形なモデルに対してカルマンフィルターを用いるための方法についてまとめます。本稿で述べる内容については、線形モデルの場合のカルマンフィルターの理解を前提とします。線形モデルの場合のカルマンフィルターについては、過去にまとめておりますのでこちらも是非ご覧下さい。 biocv.hateblo.jp 具体的には、非線形モデルを線形近似する拡張カルマンフィルター(Extended Kalman FIlter : EKF)およびサンプル点を用いて分布を近似する無香カルマンフィルター(Unscented Kalman Filter:UK…
AIコード生成への過信は禁物 Qiitaに投稿しました Qiitaに「AIで生成されたコードの品質は低い」を投稿しました。 qiita.com 得られた知見など 論文の本題よりも周辺知識調べたところが面白かったです。 Googleのエンジニアが50行/日、Microsoft、Facebookのエンジニアが70行/日でスタートアップのエンジニアが860行/日だとすると人生燃やしている感じはしますね。 スタートアップだとアーキテクチャの変更が多く単にファイルの移動が多いということなのかもしれないですが。 ランキング参加中プログラミング
この記事は、量子サポートベクターマシーンを利用して、MNISTから配布されているデータベースの分類を行う方法をある程度略して説明するものです。変分量子計算の方法論は、機械学習における分類問題にも応用されています。その1つがQuantum Support Vector Machine(QSVM)です[1]。これはクラス分類問題において、評価関数に現れるカーネルを量子状態の内積で代用して、それを解くというものです。この方法において、過学習が抑えられるということが報告されています。本来ならば、実装してデータを採りたいところですが、手書き文字の認識分類をさせるだけでも画像を取り込んだ上に数字とアルファ…
LightGBMのver. 4.0.0で登場した量子化ですが、今はLightGBMも4.3.0が出て量子化についての不具合修正もすすんで安定して動くようになってきました。 論文をベースに、「どういう計算をしているのか」という理論面の概要と、実際に動かして「どれだけ計算速度や予測精度やモデルのファイルサイズが変わるのか」を見ていきたいと思います。 個人的に特に気になっているのはモデルのファイルサイズの減少です。 量子化の概要 LightGBMのような最近のGBDTで使われている決定木では、葉の出力は誤差関数の2次のテイラー近似をもとに、以下のように計算されます(このあたりはChen & Gues…
はじめに 背景 タスクランナーを導入するモチベーション パラメータ管理ツールを導入するモチベーション 実現したいこと モデルや環境に依存しないタスクによるパイプラインの操作 共通部分と環境特有部分を分離したパラメータ定義 パラメータ定義の構造化 実装方法 利用するツール パラメータファイル 構造化パラメータのマージ処理の実装 おわりに はじめに enechain データサイエンスデスク エンジニアの藤村です。 enechainでは市場活性化を目的として、機械学習や最適化アルゴリズムを用いて電力や燃料などの商品に関する指標を算出し、社内外に提供しています。本稿では、これらを算出するモデルの構築・…
はじめに 本エントリーでは、一般の多次元のカルマンフィルターについてまとめます。カルマンフィルターの概要や式の解釈については以前のエントリー「カルマンフィルター(1) - 1次元の場合」で投稿させて頂きましたので、こちらもご覧頂ければと思います。 本稿では、多次元の場合の予測モデルと更新モデルについて式の導出を行います。また、実装上課題となる数値安定性を解決するために一般的に用いられているUD分解による定式化についても捕捉します。 カルマンフィルターのモデル 1次元の場合と同様に状態遷移モデルから予測モデルと更新モデルを記述します(図1)。 図1:状態遷移モデルのグラフ 状態量:$\bf{y_…
はじめに 以前のエントリーにて2変数正規分布の場合の条件付き分布について期待値と分散の導出を行いました。式の変形において特別な知識を要さないので、条件付き分布についての理解をまず2変数の場合で式展開を追いながらつかんでもらうのがよいかと思います。 biocv.hateblo.jp 本記事ではより一般的な多変数の場合の条件付き分布について期待値と分散の導出を行います。途中、式の変形にてブロック行列の逆行列の知識を用います。式の展開については、以下のQiitaの投稿を参考にさせて頂きました。 qiita.com 導出 任意の次元 $n \in N$の確率変数$X$が平均:$\mu$、分散:$\Si…
解説する論文 タイトル: Aloe: A Family of Fine-tuned Open Healthcare LLMs 著者: Ashwin Kumar Gururajan et al. 論文のURL: arXivリンク 発表日: 2024年5月3日 専門外の人でも分かる解説 この研究では、医療分野で使用されるオープンソースの大規模言語モデル(LLM)群、「Aloe」について説明しています。Aloeファミリーは、公共データと合成データを組み合わせた新しいデータセットで訓練され、倫理的パフォーマンスの新基準を設定しています。 要約 この論文の新しい点 Aloeモデルは、高度なプロンプト工学…
映画やテレビドラマに登場するAIアシスタントの実現性をランキング形式でまとめました。 はじめに 本記事では、Copilotを用いて「映画やテレビドラマに登場するAIアシスタントの実現性を、ランキング形式でまとめる」という試みを行いました。その過程と感想を紹介します。 AIアシスタントのランキング プロンプト 映画やテレビドラマに登場する、AIアシスタントを5つ挙げてください。それらを実現性が高い順にランキング形式で示してください。 回答:会話スタイル「より創造的に」 映画やテレビドラマに登場するAIアシスタントの例をいくつか挙げ、実現性が高い順にランキング形式で示します。以下のリストは、現実世…
解説する論文 タイトル: QANA: LLM-based Question Generation and Network Analysis for Zero-shot Key Point Analysis and Beyond 著者: Tomoki Fukuma et al. 論文のURL: arXivリンク 発表日: 2024年4月 専門外の人でも分かる解説 この研究は、QANA(Question-Answering Network Analysis)という新しいフレームワークを導入しています。これは、ユーザーのコメントから質問を生成し、それに答えられるかどうかでグラフを作成し、重要な意見を…
解説する論文 タイトル: Evaluating Students' Open-ended Written Responses with LLMs: Using the RAG Framework for GPT-3.5, GPT-4, Claude-3, and Mistral-Large 著者: Jussi S. Jauhiainen, Agustín Garagorry Guerra 論文のURL: arXivリンク 発表日: 2024年5月8日 専門外の人でも分かる解説 この研究では、学生の開放型書面試験の回答を評価するために、大規模言語モデル(LLMs)を使用しています。特に、GPT-…
解説する論文 タイトル: Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations? 著者: Zorik Gekhman, Gal Yona, Roee Aharoni, Matan Eyal, Amir Feder, Roi Reichart, Jonathan Herzig 論文のURL: arXivリンク 発表日: 2024年5月9日 専門外の人でも分かる解説 この研究は、新しい知識でファインチューニングされた大規模言語モデル(LLMs)が事実と異なる回答を生成する傾向、すなわち「幻覚」を促進するかどうかを探ります。フ…
はじめに Geminiモデルは、テキスト、画像、ビデオなど様々なモダリティに対応した高性能なAIモデルです。このモデルの派生として、特に医療分野向けにカスタマイズされた「Med-Gemini」が開発されました。これにより、医療分野におけるAIの活用可能性がさらに広がることとなります。 Med-Geminiモデルの特徴 Med-Geminiは、医療専門のマルチモーダルモデルであり、テキスト処理だけでなく、画像やビデオデータの解析も行うことができます。また、Web検索を活用して最新の医療情報を取り入れることができるため、より正確で信頼性の高い診断支援が可能になります。 医療分野での活用例 Med-…
Pythonでデータ分析や機械学習を行う際には、まずデータセットを準備する必要があります。データセットは通常、行と列から構成されていますが、時には列のみを定義した空のデータセットが必要な場合もあります。この記事では、Pythonでcolumnsのみ定義された空のデータセットを作成する方法を紹介します。 moun45.hatenablog.com Pandasを使用した方法 PandasはPythonのデータ解析ライブラリであり、空のデータセットを簡単に作成することができます。以下の手順で、columnsのみ定義された空のデータセットを作成します。 Pandasをインポートする: import …
ドイツ・スタートアップ情報businessinsider5/6 アメリカのShane Guffoggは、「色を聞く」能力を持つ抽象的なマルチメディア アーティストです。 Shane Guffoggは,AI の専門家やミュージシャンと協力して、彼のイメージに合わせて音楽を作曲しました。 Shane Guffoggの絵から色コードと多くのクラシック音楽楽譜を機械学習したAIが楽譜を作り、それを人間のピアニストが弾きます。 ヴェネツィア・ビエンナーレの開幕週、私の最後の展覧会のオープニングで、アンソニーは私の絵画『オンリー・スルー・タイム 時間は征服される』にインスピレーションを受けて作曲したソナタ…
JTPで技官を務めている山田と申します。特にセキュリティを専門としています。 RSA Conference 2024 に参加するため、サンフランシスコに来ています。RSA Conference 2024 の最終日の夜に筆を取って、最新情報をお届けしたいと思います。 私は、2024年5月4日(土)夕方にサンフランシスコ入りをしました。何度も来ているサンフランシスコですが、こんなに大雨にあったことがないというほどの天気の悪さで、凍えるような寒さでもありました。週が明け、日が経つにつれ、徐々に本来の天気の良さが戻ってきたように思います。 さて、RSA Conferenceは、プロフェッショナル、エキ…
マッチングアプリを粛々と続けています。 50代以降はほとんどモンスターBBAしかいないのですが、ミラクルを信じてモンスターの森を彷徨っています。 たまに現れる40代前半の美女は、日本語が少しおかしいので絶対にAIのサクラロボットだと思っています。 今度、いいねをしてくれてマッチング(メッセージを送り合えるようになる)したら、色々と試してみようと思っていたら、現れましたよ、cmkkuyさんという美女が。 「cmkkuyさん、こんにちは♪いいねして頂きありがとうございます。仲良くしてくれると嬉しいです。」 「マッチングありがとうございます!初めまして、よろしくお願いします。秋子と呼んでください。あ…
誕生日エントリー兼読書感想文です。 www.amazon.jp はじめに クラウドコンピューティングの普及とマイクロサービスアーキテクチャの台頭により、システムの複雑性が増大しています。そのような中で、オブザーバビリティ(可観測性)の重要性が高まっています。本書「Cloud Observability in Action」は、クラウドネイティブなシステムにおけるオブザーバビリティの概念と実践方法を包括的に解説した一冊です。 learning.oreilly.com オブザーバビリティとは、システムの外部から観測できる情報に基づいて、内部の状態を推論し理解する能力のことを指します。本書では、オブ…
こんにちは、エンジニアリングマネージャーの id:onk です。Hatena Developer Blogの連載企画「卒業生訪問インタビュー」では、創業からはてなの開発に関わってきた取締役の id:onishi、CTOの id:motemen、エンジニアリングマネージャーの id:onkが、いま会いたい元はてなスタッフを訪問してお話を伺っていきます。id:onkが担当する第9回のゲストは、さくらインターネット株式会社の組織内研究所であるさくらインターネット研究所の上級研究員で、SRE (Site Reliability Engineering)の研究者としても活躍する id:y_uuki さん…
ビッグデータ解析の市場トレンドが席巻して、10年前後が経過した。 データサイエンスやその人材育成の重要性が唱えられ、更に「リスキリング」のスローガンとも相まって、政府・大学・企業側でも、人材獲得や育成の動きがこの1-2年でも急速に活発化した印象がある。 自分も専門でもあるので、取り組みに関する記事をネットで見かけたときは、割とこまめに目を通すようにしている。 が、「既に目的と組織、方法論やインフラが整備されている企業以外は、意外と巧くいってないな」、あるいは「運良く上手くいった事例でも、機械学習が適用可能な、非常に局所的な、ミクロな成功例だけを取り上げているな」という印象がある。 これは、デー…
エンターテイメントに備えてシートベルトを締めよう: 車載インフォテインメント市場が急成長 車載インフォテインメント市場はギアチェンジしており、2030 年までに 268 億米ドルの価値に達し、11.8% の健全な CAGR で成長すると予測されています。ドライバーが車にさらなるテクノロジーを求める理由は次のとおりです。 コネクテッドカー革命:消費者は、ナビゲーション、音楽ストリーミング、ハンズフリー通話などの機能を切望しています。スマートカーの台頭と、より高速でアクセスしやすいインターネットにより、インテリジェントなインフォテインメント システムの需要が高まっています。 電気自動車がイノベーシ…
中級Git操作 「Pro Git」 ずっと積み本にしてたんだけど、こんなことが書いてあるならもう少し早く読んでおけばよかった 詳細解説 Cloud Run 最新アップデート #GoogleCloud - Qiita まあ知っていることが大半だったんだけど、Application Canvas は便利そう 実験の再現性を高めるデータバージョン管理(DVC)の紹介 - techtekt データを git で管理できるなんて知らなかった〜〜これめっちゃ便利じゃん タスクとパラメータの一元管理で実現するMLOps - enechain Tech Blog 全然知らんツールだった。てっきりマネージドなサ…