Latent diffusion modelによる画像生成

今週は動画生成AIのスタートアップが何をやっているかを解説しようとしましたが、Stable Diffusionを使っていることしかわからないので、その手前の画像生成AI(例 Stable Diffusion)の勉強に付き合っていただくことになりそうです。
昨日用語だけ紹介したlatent diffusion model (潜在空間における拡散モデル)、を解説する前にdenoising diffusion probablistic models((画像空間における)確率拡散モデルによるノイズ除去)について勉強すべきである、とのことなので(いろいろなAI解説サイトで)、やってみましょう。
いくつも動画があがっています。

ニューラルネットワークは、解きにくい逆問題を解くのに威力を発揮します。この例でいうと、画像にノイズを加えて拡散させて劣化させていくわけですが、その過程をニューラルネットワークで学習させることにより、ノイズ入りから元画像を求めるAIを作っていたら、言葉で指示すると画像を生み出すAIができた、という話です。
拡散方程式に従って時間発展させた結果から原因を求める「逆問題」は解析的にうまく解けない問題(ill-posed problem)である、というのは応用数学で習いました。ニューラルネットワークは(正確かどうかの保証はないですが)それが解けるわけです。
ニューラルネットワークの訓練とそれを使った逆算にいくつか重要なテクニックがつかわれており、3つくらいの重要な論文(2015年、2019年、2020年; UC BerkleyやStanfordの貢献が大きい)があります。下記が解説ですが、ベイズの定理、ランジュバンダイナミックス、非平衡熱力学のジェンセンの不等式など、ここででてくるのか!という驚きがあります。専門家の「プログラミングだけ勉強していてはダメ」というコメントには説得力があります。
https://lilianweng.github.io/posts/2021-07-11-diffusion-models/
diffusion modelについては画像生成以外にもいろいろ面白い論文が出ています。「意味がわかる」とはどういうことか、というのは私の長年の問題意識です。diffusion modelの周辺技術は最近の目標の一つである有機化学の問題が解けるAIを作るのに使えそうで、いろいろアイデアが湧いています。

英語は「わかる」の類義語から。私の勝手な語感を並べています。違和感があれば私が間違っている可能性あり。
understand 理解する
appreciate 評価する
comprehend 理解する
fathom 「尋(ひろ)、手を広げた長さ 1.8m」ですが、測深する、から転じて わかる
find out 見つける
follow 議論についていく
grasp 把握する
interpret 解釈する
master 習得する
perceive 知覚する
read 読む、読める、わかる
realize 実現する、のほかに 気づく
recognize 認知する
see 見る、のほかにわかる
sense 感じる
apprehend 理解する
catch 捕まえる、概念をつかむ
conceive 知覚的に理解する
deduce 演繹して理解する
distinguish 区別して理解する
infer 推測する、割り出す
note 気づく
savvy 「通」(つう)としてわかる、「違いがわかる男」の「わかる」
seize つかむ
sympathize 共感する、気持ちがわかる

Leave a Comment

Comments

No comments yet. Why don’t you start the discussion?

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA