前回の記事で機械学習用データとして屈折率データの算出について紹介してきました。今回はさらに屈折率データを活用した誘電率のデータ作成について紹介します。 分子の誘電率ですが、オンサガーの式を用いることで屈折率、双極子モーメントデータ等から算出することができます。屈折率は前回の手法で算出でき、またQM9のデータには双極子モーメントの計算データも記載されていますので、これらのデータを活用して誘電率のデータベースを作成してゆきます。 import pandas as pd import re from rdkit import rdBase, Chem from rdkit.Chem import A…
機械学習を活用した材料開発が活発になってきています。機械学習には元になるデータセットが必要ですが、実験データ数には限界もあることから、計算機シュミレーションを活用したデータセットも作成されています。その中でもQMデータセットは数多くの機械学習研究においてベンチマークとして用いられている代表的なデータセットになります。QMデータセットの中でもQM9は10万以上の低分子有機化合物の高レベル量子化学計算のデータが収集されているデータセットで様々な場面で活用されています。ただQM9に収集されていないパラメーターを機械学習に使いたい場面もしばしば遭遇します。そこでQM9のデータを活用して新たに機械学習用…
さまよっているような量的研究もたまに見かけたりもする。 ------講義録始め------- 第10回の講義では、「統計を使って研究を進め、考えるとは」というテーマに取り組みます。研究計画の段階で、皆さんが目指す研究目的の変数を測定するために、調査票の作成や測定機器を使用して実験や開票調査を行っていると仮定します。実験や調査が完了すると、パソコンの表計算ソフト上で研究対象者のid番号の行を作成し、各idの列に機械や調査票で測定した変数を入力してデータセットを作成します。 解析のためにこのデータセットを作成した後、統計ソフトを用いて分析を始めます。今回の講義では、その後の手順について説明します。…
Azure Machine Learning上では複数のデータセット形式が用意されています。 mltable形式は表形式でデータを使用することができます。学習・推論を行う際にこの形式を使用することになることがありますが、プログラム上から表形式でデータ登録・更新を行う場合には特殊な設定を行う必要があります。 本記事ではAzure Machine Learning上でCSVデータをmltable形式で登録する方法を示します。 概要 関連記事 データセットを登録する方法 前提 MLTableファイルについて MLTableファイル解説 区切り文字 CSVファイルの文字コード 空白行への対応 その他設…
ベンフォードの法則(Benford's law)は、数値の先頭数字の分布に関する法則です。この法則によれば、あるデータセットにおいて、先頭の数字が1から9まで均等に分布するのではなく、先頭が小さい数字ほど頻度が高くなるという特徴があります。 具体的には、ベンフォードの法則によれば、先頭の数字が1である割合は約30%、2である割合は約17.6%、3である割合は約12.5%といった具合に、先頭の数字が大きくなるにつれて頻度は減少します。この法則は自然界や人間の行動、経済データなど、さまざまな現象に適用できることが知られています。 ベンフォードの法則は、数値のデータセットが人為的に作り出されたもので…
概要 リファレンス Azure Machine Learningデータセット種別 uri_file & uri_folder(v2) MLTable形式(v2) 詳細 MLTable定義ファイル Tabular Dataset (v1) File Dataset (v1) 結論 おわりに 概要 Azure Machine Learningでは学習やテストに使用するデータをワークスペース上に登録して保管・共有することができます。 登録設定の際にいくつか選択肢が出てくるため、本記事で解説を行います。 本記事の内容は2023年1月時点の内容で記載しており、今後のアップデートで機能が追加される可能性が…
データセット一覧 #まとめ編 yhayato1320.hatenablog.com Index Index Titanic Dataset データの取得 データの可視化 参考 Titanic Dataset kaggle のコンペティションで利用されるデータセット. www.kaggle.com kaggle 1912 年 4 月 15 日、処女航海中のタイタニック号が、氷山に衝突して沈没した. 残念なことに、乗船した全員に十分な数の救命ボートがなく、2224 人の乗客と乗組員のうち 1502 人が死亡した. 生存には運の要素もあったが、一部の人々のグループは、他のグループよりも生き残る可能性…
音声データ 音声データのデータセットをまとめる. データセット #まとめ編 yhayato1320.hatenablog.com 音声解析 #まとめ編 yhayato1320.hatenablog.com JSUT コーパス 1 名の日本語女性話者による約 10 時間の音声が収録されている. JSUT corpus: free large-scale Japanese speech corpus for end-to-end speech synthesis [2017] arxiv.org 参考 【音声】機械学習やデータ分析用のサウンドデータセットまとめ【音楽】 take-tech-engi…
Index Index CrowdHuman 参考 CrowdHuman 人間が映り込んでいる画像データセット. データセット #まとめ編 画像データ yhayato1320.hatenablog.com 人間の検出を目的としたデータセット. Training : 15000 Validation : 4370 Test : 5000 www.crowdhuman.org Main Page 参考 CrowdHuman: A Benchmark for Detecting Human in a Crowd [2018] arxiv.org
Index Index 画像データ 一般 MVImgNet / 2023 PARA / 2022 ドメイン特化 小売・ECサイト 身分証明証 / Lisence MIDV-500 タスク特化 Human Detection 異常検知 / Image Anomaly Detection スレテオ画像 参考 画像データ 画像処理に利用できるデータセットについてまとめる. 画像処理 #まとめ編 yhayato1320.hatenablog.com データセット #まとめ編 yhayato1320.hatenablog.com 一般 MNIST グレースケールの数字画像データ クラス分類など yhay…
データバージョンの管理とは? データバージョンの管理とは、バイナリデータのバージョンを管理することを指します。データバージョンの管理は、Git 等でのコードのバージョン管理をバイナリデータに拡張しています。実験の再現性を高められるメリットがあります。 DVC とは? データのバージョンを管理する機能をもつオープンソースソフトウェアです。データのハッシュをテキストファイルで保持し git でバージョン管理します。また、yaml ファイルで実行パイプラインを定義して監視対象データが更新された際にハッシュを更新することで、新しいハッシュ値を含んだデータをバージョン管理します。更新されたデータファイル…
2024/04/24 誤字修正 メタゲノム解析は、ショットガンシーケンスによる微生物群集とその個々のメンバーの研究を可能にする。メタゲノム解析に不可欠な段階は、メタゲノムアセンブリゲノム(MAG)の回収である。メタゲノム解析では、シーケンスリードをコンティグにアセンブルし、それを共通の特徴に基づいてビンにグループ化し、MAGを生成する。メタゲノムデータセットからより多くの、より質の高いMAGを得るための有用なアプローチは、複数のビニング法を適用し、それらをbin refinementと呼ばれるプロセスで組み合わせることである。本著者らは、metaWRAPのbin refinementモジュール…
Hello there, ('ω')ノ 学習例によるプロンプト(Few-shot learning)は、特定のタスクを達成するために、少数の訓練例を用いてモデルを効果的に指導する方法です。 このアプローチは、大規模な訓練データセットが不足している場合や、特定のタスクに迅速に適応する必要がある場合に特に有効です。 Few-shot Learningの基本 Few-shot learningは、モデルが少数の例から多くを学び、未見のデータに対して予測を行う能力を開発するプロセスです。この学習方法は、人間が新しいタスクを学ぶ際に少数の例から多くを推測する能力に触発されています。 プロセスのステップ …
pythonプログラミングで画像認識のディープラニングをファインチューニング。 膨大なデータセットをディープラーニングするのは、クラウドを使っても時間とコストがものすごくかかるので、学習済みモデルをベースにオプティマイザーをカスタマイズする方法を実装してみました。 とても素晴らしい仕組みですね! 😄 ChatGPTのカスタマイズでLangChaneがありますが、 LLMの今後の動向はNTTなどいろいろな企業が独自の中小規模の言語モデルのカスタマイズのしやすいLLMを開発・発表してくることになりそうです。 ご相談や制作依頼などお気軽にお問合せください! TOP ABOUT 人物写真 静物写真 バ…
中東のホームヘルスケア市場は、地域全体のヘルスケア提供環境を再編する革新的な傾向により、動的な進化を経験しています。パーソナライズされたアクセス可能な治療に対する需要が急増するにつれて、ホームヘルスケアの新しいトレンドは、患者の結果と医療のアクセシビリティを革新する可能性として注目を集めています。この記事では、中東ホームヘルスケア市場の最新動向を見て、業界を形成する変革的な力についての洞察を提供します。 この戦略レポートのサンプルダウンロードをリクエスト - https://univdatos.com/get-a-free-sample-form-php/?product_id=51089 ウ…
こんにちは。Algomatic の宮脇(@catshun_)です。 本記事では文書検索において一部注目された BGE M3-Embedding について簡単に紹介します。 Chen+'24 - BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation
前回の記事で、「安全は創発性であり、創発性は要素の知識からは演繹されえない」、「演繹できないような問題に対するエンジニアリングは難しい」ということを書いた。 それを書きながら、AI(機械学習)のことを連想した。 機械学習の品質確認の難しさ 機械学習を「帰納的プログラミング」、従来のプログラム開発を「演繹的プログラミング」とする対比がよくされる。 「機械学習工学に向けて」(丸山宏, 日本ソフトウェア科学会第34回大会)では、摂氏を華氏に変換するプログラムを例にとり、以下のような分かりやすい対比を示している。 演繹的プログラミング: "F = 1.8 x C + 32" という変換式(先験的知識)…
最近、とあるプロダクトの性能改善をおこなっており、その中で特にMySQLのチューニングを担当しています。 RDBのチューニングといえばまずはインデックスですが、「インデックスを貼れば早くなる!」というのは感覚的にはわかっているのですが、インデックスがどんな仕組みになっているのか? について少しだけ踏み込んで理解したいと思ったため、勉強してみました。 お題 例えば以下のようなuserテーブルで、『誕生日が 10/15 の人はだれですか?』を検索する場合を考えてみます。 id name class birthday 1 佐藤 A 04/29 2 鈴木 B 06/27 3 高橋 B 04/11 4 …
この記事は個人ブログと同じ内容です www.ritolab.com // .table-warp {overflow-x: scroll;} データベースを操作する SQL SQL(Structured Query Language)は、関係データベース管理システム(RDBMS)でデータを管理・操作するための標準化された言語です。データベースに格納された情報を効果的に取得、挿入、更新、削除するために使用されます。 SQLは、テーブルと呼ばれるデータの形式で情報を格納し、クエリを使用してデータベースとの対話を行います。初心者にとっても覚えやすく、構文も直感的であるため、多くのデータベース管理シス…
AI(人工知能)技術の進化は、ビジネスの世界に革新をもたらしています。ビジネスパフォーマンスの向上や業務効率化のために、さまざまなAIツールが開発され、活用されています。ここでは、ビジネスにおけるAIツールの効果的な活用方法やその利点について考察してみましょう。 1. AIツールのビジネスへの適用範囲の拡大 近年、AI技術はビジネスのあらゆる領域に適用されています。例えば、営業、マーケティング、顧客サービス、人事管理など、さまざまなビジネス機能でAIツールが活用されています。これらのツールは、業務プロセスを自動化し、データ分析や予測分析などのタスクを効率化することができます。 2. データドリ…
AI(人工知能)発展の変化とは? AI(人工知能)技術の発展により、私たちの仕事環境は大きく変化しました。日々の業務を効率化し、生産性を向上させるために、さまざまなAIツールが開発されています。ここでは、社会人が仕事で活用できるAIツールについて、その効果的な活用方法や利点について考察してみましょう。 1. AIツールの活用範囲の拡大 近年、AI技術の進化により、様々な業界でAIツールの活用範囲が拡大しています。例えば、自然言語処理(NLP)を活用したチャットボットや音声認識技術を利用した仕事効率化ツールなどがあります。これらのツールは、日常業務の多くを自動化し、社会人の負担を軽減することがで…
カオス理論は、1970年代に気象学者エドワード・ローレンツによって一般に知られるようになりました。カオス理論とは、小さな変化が大きな結果を引き起こす場合、その理由を説明する数学の一分野です。「バタフライ効果」とも呼ばれることがあります。これは、例えばブラジルで蝶が羽ばたくことが、アメリカで竜巻を起こす遠因となるかもしれないというアイデアです。このような事は実際には起こりませんが、とても小さい出来事がとても大きな結果を生むことが現実の世界には存在するという事をわかりやすく説明する1つの例です。 カオス理論は、気象予報や株価の予測など、実際に日常生活の多くの分野で応用されています。これらの現象は、…
Gene Expression Omnibus (GEO)は、トランスクリプトミクスやその他のオミックスデータセットのための主要なオープンな生物医学研究リポジトリである。現在、世界中の多くの生物医学研究ラボによって収集された数万件の研究から得られた数百万件の遺伝子発現サンプルが含まれている。GEOリポジトリのユーザーは、関連するデータセットを見つけるために、研究を記述するメタデータを検索できるが、現在のところ、データレベルでGEOのグローバル検索を容易にする方法やリソースはない。この欠点に対処するため、本著者らはRummaGEOを開発した。RummaGEOは、GEOに寄託されたヒトおよびマウス…
この記事の要約 はじめに 問題点の要約 (追記) 先行研究について GARCH(っぽい)モデルによるシミュレーション シミュレーション前の理論分析 選択的夫婦別姓との比較 (追記) ゴルトン゠ワトソン分枝過程について 使用するデータ シミュレーションの技術的な補足 乱数生成について GARCHモデルの結果 シミュレーションの追試 より複雑なシミュレーションについて 男女別 世代重複 創作苗字 三親等の婚姻禁止ルール より高度な人口学的モデル 結論 2024/4/22: 先行研究とゴルトン゠ワトソン分枝過程の解説の追記 2024/4/23: 多数の言い回しのおかしい箇所の校正 この記事の要約 先…
ゼロから始める自作LLM 小さなLLMを多数組み合わせることで、単一の巨大モデルに匹敵する可能性 コンテナ使うならAzureで決まり!個人的推しサービスのAzure Container Appsを語る_ ML system design: 300 case studies to learn from GUIと日本語環境が使えるお手軽Docker環境の使い方 101 real-world gen AI use cases featured at Google Cloud Next ’24 Heron-Bench: 日本語Vision&Languageモデルの性能評価ベンチマークの公開 Intro…