この記事ではstable diffusion系を使った画像生成で出てくる ステップ数、CFG scale、サンプラー といったパラメータの数々について、 どう言う意味なのか噛み砕きながら紹介したいと思います。 画像生成AI呪文シリーズなるものを作っておりますが、 正直に言うと、パラメータの意味をよく知らずに画像生成AIを使っておりました。 逆に言うと、意味はよく分からなくても使えてしまいます。 もちろん、ステップ数は名前からして何となくイメージできますし、 CFG scaleもどれだけプロンプトに従うかを調整することは 見聞きしておりましたが、これらのパラメータが、 中で何をしているのかが気に…
長らく暮らした東京を離れて地方を転々として約11年、あの日から共に暮らし始めたMacBook Pro(Retina, Mid 2012)との付き合いも、当たり前だが約11年になる。 最新のOSはもはや搭載できないし、内蔵スピーカーは壊れてしまい自らの口から声を発することは出来なくなってしまったし、内臓のバッテリーも充電機能を失い電源に繋いでいないと眠りについてしまうし、そのライフラインである電源コードも外装がすべて剥がれて、まるで血管や筋肉の組織が剥き出しかのような状態だし、もはや満身創痍だと言ってもまったく過言ではないが、それでもいまだにぼくと共に日々を送ってくれている。 そんな状態の相棒に…
はじめに stable diffusionとは、Stability AI社が開発・提供している画像生成AIです。ユーザーが入力した呪文(プロンプト)を基にイラストを生成してくれます。stable diffusionは、潜在拡散モデル(英: latent diffusion model)という技術を用いて画像を生成しています。この記事では、stable diffusionの仕組みや技術的な背景について解説します。 潜在拡散モデルとは? 潜在拡散モデルとは、機械学習の分野で用いられる一種の潜在変数モデルです1。潜在変数モデルとは、観測されたデータに対して、その背後に存在する隠れた変数(潜在変数)を…
前回cake-by-the-river.hatenablog.jp 今回は、いよいよStable Diffusionの元論文である Latent Diffusion Model (LDM) について解説し始めます。特に、そのモデル構造(潜在空間における拡散モデル, 分類器なし条件付け, など)を導くに至った経緯を主に解説します。その他の問題(拡散ステップ数の削減など)に関しては次回になると思います。arxiv.org
前回cake-by-the-river.hatenablog.jp 今回は、拡散モデルの最も重要な論文である Denoising Diffusion Probablistic Models (DDPM)を解説します。arxiv.org 前回の潜在変数モデルとしての側面(AutoEncoder)も持ちつつ、スコアベースモデルによる画像生成であるNCSNと数学的に等価で、より学習の効率が良いアルゴリズムであるDDPMは、Stable Diffusion(Latent Diffusion Model)の中枢を担っているため、ここが理解できればStable Diffusionをはじめとした拡散モデルの…
久々の投稿の投稿になりましたが、ここ半年はCLIPやStable Diffusion、ControlNet、ChatGPTなど話題が目白押しで、ここまで論文技術がTwitterやニュースで話題になるとは想像もしていませんでした。中でもChatGPTの登場は強烈で、人とコンピュータの対話インタフェースが機械語命令や単語検索ではなく、日常会話に置き換わった点は大きな変化です。またStable Diffusionも入力したキーワードに沿った画像を生成するというのは非常に新しい体験です。 そんな今話題の「生成AI」ですが、なんと今夏に発売予定のCV最前線「生成AI」に私が寄稿した記事が掲載されます。私…