しんさんのブログ

科学や技術のこと読書のことなど

深層学習でよく使われる3D vision用データセットまとめ

3D mult-view系の学習用データセットのまとめ

最近はやりのNeRFや3D Gaussian Splattingやone shot やfew shot 画像入力からの3D形状、マテリアル推定系のデータセットをリストアップしていきます。

Objaverse-XL
A Real World Dataset for Multi-view 3D Reconstruction

998 3D models of everyday tabletop objects along with their 847,000 real world RGB and depth images http://www.ocrtoc.org/#/3D-Reconstruction

Stability AIのStable Video 3Dの概要

Stability AIのStable Video 3Dの概要まとめ

詳細はStability AIのページを参照

ja.stability.ai

特徴

1枚の入力画像から互いに矛盾のない首尾一貫したマルチビューの画像を生成する

詳細情報

  • 1枚の画像入力からマルチビューの姿を推定するマルチビュー推定が可能

    SV3Dと他の手法との比較

  • Stable Video Diffusion(SVD)をベースに開発された

    • Stable Video Diffusionで開発した動画生成での時間方向の一貫性を、今回は空間的な一貫性に応用している
  • 学習に使用したデータセットObjaverse

    • ただしCC-BYライセンスのものだけを抜粋している

現在2種類のバリエーションが公開されている

  • SV3D_u
    • 単一の画像入力に対して、オブジェクトをぐるっと一周回るような軌道でカメラを動かしたときの画像を生成する
  • SV3D_p (こっちの方がむつかしい設定)
    • SVD3_u の機能を拡張し、単一画像入力に対して指定されたカメラパスに沿って画像を生成する

3Dメッシュの生成

今はまだ公開されていませんが3Dメッシュの出力も考えているようです。
一貫したマルチビュー画像が生成できれば、それをNeRFに入力しSigned Distance Functionに変換後BakedSDFなどでも使用されているDMTetを使えば3Dメッシュを出力できると思われます。 また、鏡面反射を球面ガウシアンで表現し、拡散反射をランバート反射と仮定してオブジェクトがどのようにライティングされているかを推定し照明の影響を除去する。

この3D化はまだ公開されていませんが、でも映像のレベルだと応用範囲が広がりそうです。
といってもフォトリアリスティックなゲームなどに比べるとまだまだ性能を上げる必要がありそうです。

ライセンスは?

  • Stability AI メンバーシップに加入することで、商用利用が可
  • 非商用利用の場合は、Hugging Face のモデルウェイトをダウンロードして使用可能

大規模言語モデル(LLM)まとめメモ

 Large Language Model(LLM)の自分用メモ

このメモを書いた経緯

最近、各社から次々と新しいLLMが発表されています。
それぞれの言語モデルの特徴や違いについて簡単に自分用のメモを作っておかないと覚えきれないので作成しました。
自分の外部記憶として書き留めているので間違っている可能性がありますのでご注意ください。

META

LLaMA 3を2024/4/18に発表

Meta Llama 3

  • Open-weight access model
  • パラメータ数はそれぞれ約80億個と約700億個
  • 4050億個のモデルは現在学習中
  • 15兆トークン(15 trillion tokens)で学習。custom-built 24k GPU clusterを使い学習。文脈長は8k。
  • 学習中の400B+モデルはトップLLMの性能に並ぶ
Google Gemini
  • googleが開発したマルチモーダル生成AIモデル

  • input: text, image,audio, movie

  • output: text, image

  • ChatGPTはnativeマルチモーダルではない

  • モデルの大きさに応じて3種類ある

    • Gemini Nano, Gemini Pro, Gemini Ultra
    • Nanoはアンドロイドスマホ(Google Pixel)に搭載されている
  • Gemini Advaced 料金2900円/月

  • 日本語OKだが、画像生成は英文で描く必要がある

Anthropic Claude 3
  • マルチモーダルではあるが、プロンプトとして入力した画像について説明することはできても、画像を描くことはできない

  • モデルの大きさに応じて3種類ある

    • Opus、Sonnet、Haikuの3サイズ(Opusが最大のモデル) この順に性能が高い
  • 無料版のclaude.aiはClaude 3 Sonnet

  • 月額20ドルのClaude ProにアップグレードすればOpusを利用できるようになる。

  • API利用可

  • OpenAIのGPT-4やGoogleのGeminiなどの競合するシステムを上回る性能を発揮した

  • 2023年8月までのデータでトレーニングされている

  • Haiku:最も迅速かつコスト効率の高いモデルで、約1万トークンの情報や研究論文を3秒未満で読み取れる

  • 100万トークンのコンテキストに対応

  • ChatGPTと比べて会話に深さがあるように感じる。ただしhullsinationは多い。

  • Claude APIの使い方 ClaudeのAPIを使う

Apple MM1
  • Maxで30Bパラメータを持つマルチモーダルLLM(MLLM)
Grok
  • Elon Maskが立ち上げた会社が作ったモデルデータがオープンソース化されたLLM(2024年3月17日にオープン化)
  • パラメーター数が3140億
  • X(旧Twitter)のデータでトレーニングされている

Open Release of Grok-1

MistralAI

npakaさんがまとめてくださっているローカルLLM のリリース年表がわかりやすい

note.com

「生成AIで世界はこう変わる」 今井翔太著を読みました


東大松尾研究室の今井さんの一般向け生成AI解説本です。 本書の最後には松尾先生と今井さんの特別対談も収められています。

生成AIの現状と未来について知りたい人におすすめ

生成AIってなに?っていう人にとっては少しむつかしめの内容です。
と言っても数式が出てくるわけではないので、ChatGPTや画像生成AIについて聞いたことがありどんなことができるか知っているという程度の知識さえあれば本書を読み進むことができます。

技術の解説がわかりやすい

2章では生成AIの背後にある技術を解説しています。 数式を一切使わずChatGPTがなぜ人間と”まともな”会話ができるのかを説明しています。 この、”まともな”というところが重要で例えば、「明日学校行くの嫌だけどどうしたらいい?」と質問して、AIが 「じゃあ大災害が起きて学校がつぶれることを祈ればどうですか?」と答えたらどう思いますか?
会話としては成立していますが、決して”まともな”返答とは言えません。
世の中にある多数のテキストを学習しただけでは上記のようなおかしな返答が返ってくるAIが出来上がってしまします。
ではどうすればもっとまともな応答ができるAIを作れるのでしょうか。
それこそまさにChatGPTが使用している技術で、それについて平易に解説してあります。

生成AIとともに歩む人類の未来

最終章では著者の主観も交えながらAIが人間の能力を超えていくような未来に人は何を考え何を大切に生きていくのか、それについて議論が展開されています。
AI関連の技術は進歩が指数関数的に早くなっているので未来はこうなるという予想は不可能です。
ほんの数年先ですらどうなるかを日々最先端の研究をしている著者でさえはっきりしたことは言えないようです。  
対談の中でもこの話題はでてきていましたが、東大の松尾先生ですら数年先も予想できないと述べています。
では我々は今どうすればいいのか、答えは本書を読めばおぼろげながら見えてきました。

世の中に生成AIの書籍が山ほどあふれていますが、その中で数少ない必読の本だと思いました。

追記:筆者の本書の執筆に関するnoteのリンクを張っておきます。

生成AIの本を執筆する者は一切の希望を捨てよ~2023年の生成AIと『生成AIで世界はこう変わる』執筆振り返り~|今井翔太@えるエル(ImAI_Eruel)

「ChatGPTの頭の中」スティーブ・ウルフラム著 を読みました

お正月1冊目の読書はウルフラムが書いたChatGPTに関する本です。

ウルフラムと言えばあのMathematicaを開発したことで名が知られています。 また、言語学の研究もしており言語モデルニューラルネットワークにも造詣が深い人物です。
そのウルフラムがChatGPTの登場に驚くと同時に、その限界とMathematicaのような計算言語との融合による新たな可能性について述べています。

ChatGPTがなぜあれほど少ないパラメータであたかも人間のように流ちょうに言語を扱うことができるのか、ウルフラムはそれについて人類はまだそれを説明できるような科学的な知識体系を発見していないと書いています。

ただ言えるとことしてこれまで人が行う非常に高度な能力と思われていた、人間のように会話するだとか小論文を書いたりメールを書いたりするという行為は計算論的には非常に簡単で浅い行為であったということが、ChatGPTで明らかになったということです。

本書は大きく2章に分かれており、1章ではChatGPTの仕組みについてウルフラムの切り口で解説しています。 2章はウルフラムらの開発するWolfram AlphaとChatGPTが融合することで、それぞれが補完しあって人間のように会話するChatGPTが計算言語を手に入れることができると論じています。

厳密に答えが出せるような問いに対してあいまいな返答や間違った答えを返すChatGPTがWolfram Alphaと対話することで論理的で正確に答えを導き出す能力を得ることができると述べています。

ページ数で言うと8割程度が1章で残りのわずかが2章及び今後の展望なのですがウルフラムのほんとに言いたいことは後半の2割に凝縮されていますので途中で投げ出さずに最後まで読むことを勧めます。

ちまたにはChatGPTの使い方とか使いこなすとこんなに便利になりますよといった本があふれていますが、本書はそういう一般書とは一線を画す、言語モデルの本質を明らかにしようとする著者の知的好奇心が凝縮された良書で、普段AIに携わる人もそうでない人も必ず読んでおく必要がある書籍だと思います。

数学マンガ、「数学であそぼ」1巻読みました

前から気になってた数学マンガの「数学であそぼ」を年末休みで読みました。
大学の理学部に入った主人公が、いきなり大学の数学で躓くという理学部生あるあるのストーリです。
関西出身の人なら、大学の雰囲気や街の様子など懐かしい場面も多く出てきます。
数学マンガと言いつつ数学の話はほとんど出てきません。
まだ1巻しか読んでません、いわゆる青春コメディーマンガです。
理系の人なら何も考えずに楽しめると思います。
裏表紙には「数学って面白い!読めば数学が好きになる 爆笑キャンパスライフ」と書いてありますので2巻以降では数学の話がもっと出てくるかもしれません。
ちなみに、「数学ゴールデン」は全巻所有してます。こちらは競技数学に挑む高校生の青春物語です。

2023年 Advent Calendarリスト

今年の気になるAdvent Calendarリストです。

今年もこの季節がやってきました。
徐々にリンクを増やしていきます。

まとめ

今年も魅力的なカレンダーが沢山あります。
リストは随時更新していきます。