先簡單的介紹Stable Diffusion,它的主要功能就是根據人所給出的文字,並畫出相對應的圖片出來。(如下圖所示)。不過Stable Diffusion並不是一個單一模型,而是由多個模型所組成。
在訓練模型時,會將訓練的圖片加入雜訊(noise),以預測latent space中的雜訊。加入雜訊的目的是,希望模型具備反推能力,也就是在生成圖片時能將圖中的雜訊去除,並還原成沒有雜訊的圖片。
這裡主要由幾個模型組合而成,包含提取文字特徵的tokenizer與text encoder;為了整合圖與文字,表現出不錯的latent representation,就需要U-Net;最後則是將上述資訊轉為圖片的VAE。接著,就依序讓大家認識每個模型的細節用途,及Stable Diffusion生成的整個流程。