昨日は、画像生成AIが非平衡熱力学の手法とベイズの定理を使ってノイズ+その拡散を逆演算してノイズから画像を作り出しているということを紹介しました。演算をするニューラルネットワークに別の情報(単語など)を一緒に学習させておくと、魔法のように単語から画像が現れるわけです。
例えば、Stable Diffusionのwebにはいろいろな例が載っていますが、「宇宙飛行士が月面で馬に乗る」と入れるとそのような画像が出るようです。適切に物体や背景をはめ込む技法は写真の修整などにも使われるようになっています。その名前の物体の画像と、その適切なはめ込み方をAIが知っているわけですね。
いくつかの不可欠の技法が組み合わさってできている演算エンジンですが、中心になるのを1つ選べ、と聞かれたら「オートエンコーダ」、と私は答えます。解説は下記です。情報を連想的に圧縮する技術として、地味ですが絶大な威力があることが画像生成AIからも示されていると思います。詳細は下記をはじめいろいろわかりやすい解説があるので譲ります。
https://www.ibm.com/jp-ja/topics/autoencoder
画像生成AIの日本語の解説は下記がありました。これを理解するために使われる概念を勉強していこう、という講義の仕方もあるかもしれません。
https://zenn.dev/nakky/articles/09fb1804001ff8
その講義では、情報学のついでに非平衡熱力学(の一部)も教えられます。私は物語でない本は後ろから読みます。そのほうが習得がはるかに速いからです。インターネット上の情報を使って勉強すると同じスタイルになると思うので、若い皆さんもやっているのではないかと思います。
英語は https://www.ibm.com/topics/autoencoder から。
autoencoder オートエンコーダ―
compress コンプ「レ」ス 圧縮する
encode コード化する、記号化する、暗号化する
essential features 本質的な特徴
reconstruct 再構成
associate 連想する
latent variables 潜在変数
hidden 「ヒ」ドゥン 隠れた < hide ハイド
variational ヴァリエイショナる 変分の
adversarial 敵対的な adversarial autoencoder 敵対的オートエンコーダ(字づらは面白いですね。頭がいい方法です)
image segmentation 画像分類
recurrent neural network 回帰型ニューラルネットワーク
“Autoencoders discover latent variables by passing input data through a “bottleneck” before it reaches the decoder. ”
オートエンコーダーは、入力データを、デコーダー(出力)に至るまでに「ボトルネック」を通過させることにより潜在変数を発見する。