前回の記事まではStable Diffustionの心臓部であるU-Netについて解説してきました。 ただのノイズから画像を作りだしていくのはU-Netの役割ですが、これだけでは画像は完成しません。 なぜならU-Netが作り出すものは「圧縮された画像」だからです。 絵を完成させるためにはこの圧縮された画像を展開して、元のサイズに戻す必要があります。 この、絵を圧縮したり展開したりする機能を「Variational Autoencoder」(ヴァリエーショナル・オートエンコーダー)、略して「VAE」と言います。 Stable Diffusionのしくみを語るとき、U-NetやTransforme…