データセット

このタグの解説について

この解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

あるケミストの独り言（winchemwinの日記）•19日前

Pythonを活用した機械学習用データ作成　その３（誘電率）

前回の記事で機械学習用データとして屈折率データの算出について紹介してきました。今回はさらに屈折率データを活用した誘電率のデータ作成について紹介します。分子の誘電率ですが、オンサガーの式を用いることで屈折率、双極子モーメントデータ等から算出することができます。屈折率は前回の手法で算出でき、またQM9のデータには双極子モーメントの計算データも記載されていますので、これらのデータを活用して誘電率のデータベースを作成してゆきます。 import pandas as pd import re from rdkit import rdBase, Chem from rdkit.Chem import A…

#機械学習#誘電率#QM9#データセット

ネットで話題

1452ブックマーク統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

hoxo-m.hatenablog.com

1216ブックマーククローリングしてる暇があるなら…論文かいたら? | EDGE Datasets(研究用データセット)

github.com

331ブックマーク機械学習とかに使えそうなデータセット - pixyzehn blog

rikei-webmemo.hateblo.jp

331ブックマーク【13個掲載】機械学習に使える日本語のデータセットまとめ - Qiita

qiita.com

322ブックマークニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm

sucrose.hatenablog.com

309ブックマーク OCR処理プログラム及び学習用データセットの公開について | NDLラボ 2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館（以下、「当館」とします。）が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR...

lab.ndl.go.jp

295ブックマーク無料GPT-4アプリの公開とクリーンデータセットの作成について｜kun1emon

note.com

250ブックマーク 23億枚もの画像で構成された画像生成AI「Stable Diffusion」のデータセットのうち1200万枚がどこから入手した画像かを調査した結果が公開される

gigazine.net

249ブックマーク「HOME'S」の物件・画像データセットを研究者に提供開始します！ - LIFULL Creators Blog

www.lifull.blog

関連ブログ

あるケミストの独り言（winchemwinの日記）•2ヶ月前

Pythonを活用した機械学習用データ作成　その１（分子体積１）

機械学習を活用した材料開発が活発になってきています。機械学習には元になるデータセットが必要ですが、実験データ数には限界もあることから、計算機シュミレーションを活用したデータセットも作成されています。その中でもQMデータセットは数多くの機械学習研究においてベンチマークとして用いられている代表的なデータセットになります。QMデータセットの中でもQM9は10万以上の低分子有機化合物の高レベル量子化学計算のデータが収集されているデータセットで様々な場面で活用されています。ただQM9に収集されていないパラメーターを機械学習に使いたい場面もしばしば遭遇します。そこでQM9のデータを活用して新たに機械学習用…

#機械学習#分子体積#データセット

F-nameのブログ•6ヶ月前

統計で研究を進める！基本とポイント（ヘルスリサーチの方法論第10回その1） #放送大学講義録

さまよっているような量的研究もたまに見かけたりもする。 ------講義録始め------- 第10回の講義では、「統計を使って研究を進め、考えるとは」というテーマに取り組みます。研究計画の段階で、皆さんが目指す研究目的の変数を測定するために、調査票の作成や測定機器を使用して実験や開票調査を行っていると仮定します。実験や調査が完了すると、パソコンの表計算ソフト上で研究対象者のid番号の行を作成し、各idの列に機械や調査票で測定した変数を入力してデータセットを作成します。解析のためにこのデータセットを作成した後、統計ソフトを用いて分析を始めます。今回の講義では、その後の手順について説明します。…

#放送大学#放送大学講義録#ヘルスリサーチの方法論#統計#研究デザイン#調査票#データセット#統計ソフト#量的研究#尺度

JBS Tech Blog•9ヶ月前

Azure Machine LearningデータセットのMLTableについて学ぶ

Azure Machine Learning上では複数のデータセット形式が用意されています。 mltable形式は表形式でデータを使用することができます。学習・推論を行う際にこの形式を使用することになることがありますが、プログラム上から表形式でデータ登録・更新を行う場合には特殊な設定を行う必要があります。本記事ではAzure Machine Learning上でCSVデータをmltable形式で登録する方法を示します。概要関連記事データセットを登録する方法前提 MLTableファイルについて MLTableファイル解説区切り文字 CSVファイルの文字コード空白行への対応その他設…

#Azure Machine Learning#automl#データセット#Python#SDKv2#機械学習

なるほど心理学•10ヶ月前

ベンフォードの法則

ベンフォードの法則（Benford's law）は、数値の先頭数字の分布に関する法則です。この法則によれば、あるデータセットにおいて、先頭の数字が1から9まで均等に分布するのではなく、先頭が小さい数字ほど頻度が高くなるという特徴があります。具体的には、ベンフォードの法則によれば、先頭の数字が1である割合は約30%、2である割合は約17.6%、3である割合は約12.5%といった具合に、先頭の数字が大きくなるにつれて頻度は減少します。この法則は自然界や人間の行動、経済データなど、さまざまな現象に適用できることが知られています。ベンフォードの法則は、数値のデータセットが人為的に作り出されたもので…

#ベンフォード#法則#数値#先頭数字#分布#データセット#1から9#小さい#頻度#高くなる

JBS Tech Blog•1年前

Azure Machine Learningにおけるデータセット種類まとめ

概要リファレンス Azure Machine Learningデータセット種別 uri_file & uri_folder(v2) MLTable形式(v2) 詳細 MLTable定義ファイル Tabular Dataset (v1) File Dataset (v1) 結論おわりに概要 Azure Machine Learningでは学習やテストに使用するデータをワークスペース上に登録して保管・共有することができます。登録設定の際にいくつか選択肢が出てくるため、本記事で解説を行います。本記事の内容は2023年1月時点の内容で記載しており、今後のアップデートで機能が追加される可能性が…

#AI#Azure Machine Learning Studio#Azure Machine Learning#機械学習#データセット

オムライスの備忘録•1年前

【データセット】Titanic Dataset

データセット一覧 #まとめ編 yhayato1320.hatenablog.com Index Index Titanic Dataset データの取得データの可視化参考 Titanic Dataset kaggle のコンペティションで利用されるデータセット. www.kaggle.com kaggle 1912 年 4 月 15 日、処女航海中のタイタニック号が、氷山に衝突して沈没した. 残念なことに、乗船した全員に十分な数の救命ボートがなく、2224 人の乗客と乗組員のうち 1502 人が死亡した. 生存には運の要素もあったが、一部の人々のグループは、他のグループよりも生き残る可能性…

#opendata#Dataset#オープンデータ#データセット

オムライスの備忘録•1年前

【データセット】音声データ

音声データ音声データのデータセットをまとめる. データセット #まとめ編 yhayato1320.hatenablog.com 音声解析 #まとめ編 yhayato1320.hatenablog.com JSUT コーパス 1 名の日本語女性話者による約 10 時間の音声が収録されている. JSUT corpus: free large-scale Japanese speech corpus for end-to-end speech synthesis [2017] arxiv.org 参考【音声】機械学習やデータ分析用のサウンドデータセットまとめ【音楽】 take-tech-engi…

#音声解析#opendata#Dataset#オープンデータ#データセット

オムライスの備忘録•1年前

【データセット】CrowdHuman

Index Index CrowdHuman 参考 CrowdHuman 人間が映り込んでいる画像データセット. データセット #まとめ編画像データ yhayato1320.hatenablog.com 人間の検出を目的としたデータセット. Training : 15000 Validation : 4370 Test : 5000 www.crowdhuman.org Main Page 参考 CrowdHuman: A Benchmark for Detecting Human in a Crowd [2018] arxiv.org

#opendata#Dataset#オープンデータ#データセット

オムライスの備忘録•2年前

【データセット】画像処理 #まとめ編

Index Index 画像データ一般 MVImgNet / 2023 PARA / 2022 ドメイン特化小売・ECサイト身分証明証 / Lisence MIDV-500 タスク特化 Human Detection 異常検知 / Image Anomaly Detection スレテオ画像参考画像データ画像処理に利用できるデータセットについてまとめる. 画像処理 #まとめ編 yhayato1320.hatenablog.com データセット #まとめ編 yhayato1320.hatenablog.com 一般 MNIST グレースケールの数字画像データクラス分類など yhay…

#opendata#Dataset#オープンデータ#データセット

techtekt•9時間前

データもバージョン管理したいあなたへ

データバージョンの管理とは？データバージョンの管理とは、バイナリデータのバージョンを管理することを指します。データバージョンの管理は、Git 等でのコードのバージョン管理をバイナリデータに拡張しています。実験の再現性を高められるメリットがあります。 DVC とは？データのバージョンを管理する機能をもつオープンソースソフトウェアです。データのハッシュをテキストファイルで保持し git でバージョン管理します。また、yaml ファイルで実行パイプラインを定義して監視対象データが更新された際にハッシュを更新することで、新しいハッシュ値を含んだデータをバージョン管理します。更新されたデータファイル…

macでインフォマティクス•10時間前

メタゲノムアセンブリの高精度なbin refinementツール Binette

2024/04/24 誤字修正メタゲノム解析は、ショットガンシーケンスによる微生物群集とその個々のメンバーの研究を可能にする。メタゲノム解析に不可欠な段階は、メタゲノムアセンブリゲノム（MAG）の回収である。メタゲノム解析では、シーケンスリードをコンティグにアセンブルし、それを共通の特徴に基づいてビンにグループ化し、MAGを生成する。メタゲノムデータセットからより多くの、より質の高いMAGを得るための有用なアプローチは、複数のビニング法を適用し、それらをbin refinementと呼ばれるプロセスで組み合わせることである。本著者らは、metaWRAPのbin refinementモジュール…

Shikata Ga Nai•11時間前

few-shot learningのプロセスと効果についてまとめてみた

Hello there, ('ω')ノ学習例によるプロンプト（Few-shot learning）は、特定のタスクを達成するために、少数の訓練例を用いてモデルを効果的に指導する方法です。このアプローチは、大規模な訓練データセットが不足している場合や、特定のタスクに迅速に適応する必要がある場合に特に有効です。 Few-shot Learningの基本 Few-shot learningは、モデルが少数の例から多くを学び、未見のデータに対して予測を行う能力を開発するプロセスです。この学習方法は、人間が新しいタスクを学ぶ際に少数の例から多くを推測する能力に触発されています。プロセスのステップ …

写真撮影ノート•1日前

Python画像認識プログラミングのディープラーニングモデルをファインチューニング

pythonプログラミングで画像認識のディープラニングをファインチューニング。膨大なデータセットをディープラーニングするのは、クラウドを使っても時間とコストがものすごくかかるので、学習済みモデルをベースにオプティマイザーをカスタマイズする方法を実装してみました。とても素晴らしい仕組みですね！ 😄 ChatGPTのカスタマイズでLangChaneがありますが、 LLMの今後の動向はNTTなどいろいろな企業が独自の中小規模の言語モデルのカスタマイズのしやすいLLMを開発・発表してくることになりそうです。ご相談や制作依頼などお気軽にお問合せください！ TOP ABOUT 人物写真静物写真バ…

Snehal-Umi’s blog•2日前

中東の在宅医療市場分析 - 規模、シェア、成長、傾向、機会、予測 (2023-2030) | UnivDatos Market Insights

中東のホームヘルスケア市場は、地域全体のヘルスケア提供環境を再編する革新的な傾向により、動的な進化を経験しています。パーソナライズされたアクセス可能な治療に対する需要が急増するにつれて、ホームヘルスケアの新しいトレンドは、患者の結果と医療のアクセシビリティを革新する可能性として注目を集めています。この記事では、中東ホームヘルスケア市場の最新動向を見て、業界を形成する変革的な力についての洞察を提供します。この戦略レポートのサンプルダウンロードをリクエスト - https://univdatos.com/get-a-free-sample-form-php/?product_id=51089 ウ…

Algomatic Tech Blog•2日前

複数の関連度から検索可能な BGE M3-Embedding の紹介

こんにちは。Algomatic の宮脇（@catshun_）です。本記事では文書検索において一部注目された BGE M3-Embedding について簡単に紹介します。 Chen+'24 - BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation

システム思考とSTAMP•2日前

システム安全と機械学習の類似性 - モノづくりの本質的難しさ？

前回の記事で、「安全は創発性であり、創発性は要素の知識からは演繹されえない」、「演繹できないような問題に対するエンジニアリングは難しい」ということを書いた。それを書きながら、AI（機械学習）のことを連想した。機械学習の品質確認の難しさ機械学習を「帰納的プログラミング」、従来のプログラム開発を「演繹的プログラミング」とする対比がよくされる。「機械学習工学に向けて」（丸山宏, 日本ソフトウェア科学会第34回大会）では、摂氏を華氏に変換するプログラムを例にとり、以下のような分かりやすい対比を示している。演繹的プログラミング： "F = 1.8 x C + 32" という変換式（先験的知識）…

tomozo6 blog•2日前

MySQLのB+treeインデックスの復習

最近、とあるプロダクトの性能改善をおこなっており、その中で特にMySQLのチューニングを担当しています。 RDBのチューニングといえばまずはインデックスですが、「インデックスを貼れば早くなる！」というのは感覚的にはわかっているのですが、インデックスがどんな仕組みになっているのか? について少しだけ踏み込んで理解したいと思ったため、勉強してみました。お題例えば以下のようなuserテーブルで、『誕生日が 10/15 の人はだれですか?』を検索する場合を考えてみます。 id name class birthday 1 佐藤 A 04/29 2 鈴木 B 06/27 3 高橋 B 04/11 4 …

ROXX開発者ブログ•2日前

SQL クエリを効率よく書こう: CTE, Window 関数編

この記事は個人ブログと同じ内容です www.ritolab.com // .table-warp {overflow-x: scroll;} データベースを操作する SQL SQL（Structured Query Language）は、関係データベース管理システム（RDBMS）でデータを管理・操作するための標準化された言語です。データベースに格納された情報を効果的に取得、挿入、更新、削除するために使用されます。 SQLは、テーブルと呼ばれるデータの形式で情報を格納し、クエリを使用してデータベースとの対話を行います。初心者にとっても覚えやすく、構文も直感的であるため、多くのデータベース管理シス…

エーアイブログ•2日前

AIツール効率化：ビジネスにおける革新的な支援手段

AI（人工知能）技術の進化は、ビジネスの世界に革新をもたらしています。ビジネスパフォーマンスの向上や業務効率化のために、さまざまなAIツールが開発され、活用されています。ここでは、ビジネスにおけるAIツールの効果的な活用方法やその利点について考察してみましょう。 1. AIツールのビジネスへの適用範囲の拡大近年、AI技術はビジネスのあらゆる領域に適用されています。例えば、営業、マーケティング、顧客サービス、人事管理など、さまざまなビジネス機能でAIツールが活用されています。これらのツールは、業務プロセスを自動化し、データ分析や予測分析などのタスクを効率化することができます。 2. データドリ…

エーアイブログ•2日前

AIツール効率化：社会人の仕事を支援するテクノロジー

AI（人工知能）発展の変化とは？ AI（人工知能）技術の発展により、私たちの仕事環境は大きく変化しました。日々の業務を効率化し、生産性を向上させるために、さまざまなAIツールが開発されています。ここでは、社会人が仕事で活用できるAIツールについて、その効果的な活用方法や利点について考察してみましょう。 1. AIツールの活用範囲の拡大近年、AI技術の進化により、様々な業界でAIツールの活用範囲が拡大しています。例えば、自然言語処理（NLP）を活用したチャットボットや音声認識技術を利用した仕事効率化ツールなどがあります。これらのツールは、日常業務の多くを自動化し、社会人の負担を軽減することがで…

Finance Wisdom•2日前

カオス理論：株価の暴落も予測できる？予測不可能と思われる未来を予測する数学的アプローチ

カオス理論は、1970年代に気象学者エドワード・ローレンツによって一般に知られるようになりました。カオス理論とは、小さな変化が大きな結果を引き起こす場合、その理由を説明する数学の一分野です。「バタフライ効果」とも呼ばれることがあります。これは、例えばブラジルで蝶が羽ばたくことが、アメリカで竜巻を起こす遠因となるかもしれないというアイデアです。このような事は実際には起こりませんが、とても小さい出来事がとても大きな結果を生むことが現実の世界には存在するという事をわかりやすく説明する1つの例です。カオス理論は、気象予報や株価の予測など、実際に日常生活の多くの分野で応用されています。これらの現象は、…

macでインフォマティクス•3日前

（ヒトとマウス）仮説生成のためにクエリに最も類似した遺伝子発現シグネチャーを検索する RummaGEO

Gene Expression Omnibus (GEO)は、トランスクリプトミクスやその他のオミックスデータセットのための主要なオープンな生物医学研究リポジトリである。現在、世界中の多くの生物医学研究ラボによって収集された数万件の研究から得られた数百万件の遺伝子発現サンプルが含まれている。GEOリポジトリのユーザーは、関連するデータセットを見つけるために、研究を記述するメタデータを検索できるが、現在のところ、データレベルでGEOのグローバル検索を容易にする方法やリソースはない。この欠点に対処するため、本著者らはRummaGEOを開発した。RummaGEOは、GEOに寄託されたヒトおよびマウス…

ill-identified diary•3日前

「500年後に日本人が佐藤だけになる」という試算の問題と改善

この記事の要約はじめに問題点の要約 (追記) 先行研究について GARCH(っぽい)モデルによるシミュレーションシミュレーション前の理論分析選択的夫婦別姓との比較 (追記) ゴルトン゠ワトソン分枝過程について使用するデータシミュレーションの技術的な補足乱数生成について GARCHモデルの結果シミュレーションの追試より複雑なシミュレーションについて男女別世代重複創作苗字三親等の婚姻禁止ルールより高度な人口学的モデル結論 2024/4/22: 先行研究とゴルトン゠ワトソン分枝過程の解説の追記 2024/4/23: 多数の言い回しのおかしい箇所の校正この記事の要約先…

SEが最近起こったことを書くブログ•3日前

2024年4月15日の週に気になった記事などまとめ

ゼロから始める自作LLM 小さなLLMを多数組み合わせることで、単一の巨大モデルに匹敵する可能性コンテナ使うならAzureで決まり！個人的推しサービスのAzure Container Appsを語る_ ML system design: 300 case studies to learn from GUIと日本語環境が使えるお手軽Docker環境の使い方 101 real-world gen AI use cases featured at Google Cloud Next ’24 Heron-Bench: 日本語Vision＆Languageモデルの性能評価ベンチマークの公開 Intro…

関連ブログ

Pythonを活用した機械学習用データ作成 その３（誘電率）

ネットで話題

関連ブログ

Pythonを活用した機械学習用データ作成 その１（分子体積１）

統計で研究を進める！基本とポイント（ヘルスリサーチの方法論第10回その1） #放送大学講義録

Azure Machine LearningデータセットのMLTableについて学ぶ

ベンフォードの法則

Azure Machine Learningにおけるデータセット種類まとめ

【データセット】Titanic Dataset

【データセット】音声データ

【データセット】CrowdHuman

【データセット】画像処理 #まとめ編

データもバージョン管理したいあなたへ

メタゲノムアセンブリの高精度なbin refinementツール Binette

few-shot learningのプロセスと効果についてまとめてみた

Python画像認識プログラミングのディープラーニング モデルをファインチューニング

中東の在宅医療市場分析 - 規模、シェア、成長、傾向、機会、予測 (2023-2030) | UnivDatos Market Insights

複数の関連度から検索可能な BGE M3-Embedding の紹介

システム安全と機械学習の類似性 - モノづくりの本質的難しさ？

MySQLのB+treeインデックスの復習

SQL クエリを効率よく書こう: CTE, Window 関数編

AIツール効率化：ビジネスにおける革新的な支援手段

AIツール効率化：社会人の仕事を支援するテクノロジー

カオス理論：株価の暴落も予測できる？予測不可能と思われる未来を予測する数学的アプローチ

（ヒトとマウス）仮説生成のためにクエリに最も類似した遺伝子発現シグネチャーを検索する RummaGEO

「500年後に日本人が佐藤だけになる」という試算の問題と改善

2024年4月15日の週に気になった記事などまとめ

Pythonを活用した機械学習用データ作成　その３（誘電率）

Pythonを活用した機械学習用データ作成　その１（分子体積１）

Python画像認識プログラミングのディープラーニングモデルをファインチューニング