生成AI Stable Diffusion

いろいろ調べていると、Lore Machineは2023年に発表されて1年後(2024-03-05)にリリースされましたが、ログインしないと詳細情報がわからないようです。計算資源がかなりかかると思うので、万人が自由自在に動画を作れるのはまだ少し先かもしれません。
先日紹介したマウスで3次元を動かせる動画を作るのは撮影を含めて1分あたり$60(=9000円)かかるそうなので、Lore Machineの1か月$10は安すぎるような気がします。
Lore Machineは画像生成AIのソフトウェア”Stable Diffusion”を使っているそうなので、こちらを見てみましょう。こちらはすでに安定したサービスを提供しています。
https://stability.ai/
https://en.wikipedia.org/wiki/Stable_Diffusion
ニューラルネットワークの応用として面白いですね。ミュンヘンのLudwig Maximilian University of Munichで開発されたlatent diffusion modelという方法をつかっているそうです。
version 1はソースコードが公開されています。6+9GB=15GB以上を消費するようです。
https://github.com/CompVis/stable-diffusion
現在のversion 3.0は800M~8B(8億から80億)の学習済みパラメータ(数値)を使っています。思ったよりも少ないです。使っていると使用ディスク容量が増えていくという記述もあり、データを読み込んで足していくのかもしれません。プログラムに加えて、この学習済みデータに価値があるということですね。
下記は、高校数学+変分法+拡散方程式 くらいで読めるので、夏の大学院集中講義(機械学習)に取り入れてもいいかもしれません。実際にプログラムを作って触る実習はGoogle Colaboratoryを使うとすると、かなり妥協が必要です。
https://en.wikipedia.org/wiki/Diffusion_model
Stable Diffusionのような生成AIは、言葉の意味が「わかっている」とみなすことができると思います。画像からノイズを減らすアルゴリズムをニューラルネットワークで正しい画像(インターネットに落ちている50億個)を学習することによって作って、そこに「潜在空間」として言葉をペアとして付加したら言葉と画像の関係を人間が見て違和感がないように「理解」するようになった、と考えていいのではないでしょうか。
開発しながらいろいろ論文が書かれているようです。2021年以降の論文で、ごく新しいです。
https://stability.ai/news/stable-diffusion-3-research-paper
この流れを見てソフトウェアの学科が人気になるわけですね。基礎ができていれば他分野でも自習は可能だと思います。専門家の話では、AIはむしろ他分野の知識を融合する段階で、AI開発者自体は飽和しているとのこと。GPUや新しい演算装置向けのプログラミングなども必要で、細かいプログラマの需要はいくらでもあるでしょうが・・・。
「意味」というのは「ノイズ」の反対であるというのは、当たり前ですが、「意味のある画像」の特徴が言葉と結びついたのが偉大ですね。学生のとき、弱いスペクトルからノイズを減らすために「デコンボリューション」のプログラムを一生懸命作っていたことを思い出すと、その先にこんな世界があったのかと感慨深いです。

英語はhttps://en.wikipedia.org/wiki/Stable_Diffusion から。
generative AI 「ジェ」ネレイティヴ、「ジェ」ネラティヴ 生成AI
stable 安定した
diffusion 拡散
latent 「れ」イテント 潜在
“Stable Diffusion has issues with degradation and inaccuracies in certain scenarios.”
issues 問題
degradation 劣化
inaccuracies < inaccuracy 不正確
scenario シナリオ
opt 選ぶ、選んで決める level 8 I opted the famous professor’s class. その有名な教授のクラスを選択した。
opt-in / opt-out ユーザーの選択で使うかどうか決める項目
data augmentation オーグメン「テイ」ション データ拡張
numerous 「ニュ」ーメラス 多数の
convolution 畳み込み積、コンボリューション
deconvolution コンボリューションの逆演算

Leave a Comment

Comments

No comments yet. Why don’t you start the discussion?

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA