植物工場や自動車の設計においてコンピュータの中に作られる実物を模擬する正確なモデルのことをdigital twinと言います。digital twin をどう作るか、が問題です。自動車の設計など、関与する現象が理詰めで分かる(流体力学(空力 くうりき)、エンジン出力、発熱、燃費など)ものは、寸法や材料のパラメータから必要な方程式を立てていけばよく、エンジンの発熱などは実験から「この出力のときは発熱が何ワット」「放熱器の特性はこう」という関数関係のグラフを導いて組み合わせればよさそうです。植物工場も実験から関数関係を導くのだと思いますが、生物は個性があるので、多数の個体についてばらつきを均した(ならした)関数関係およびどのくらいばらついているかを考える必要があります。ここで統計学が必要になります。以前取り上げたことがありますが、「ベイズ統計」という枠組みが機械学習となじみがよく、多用されます。多数の個体について、例えば葉の数、色、植物体の高さ、重量、水の吸い方、光合成効率、成長速度など様々な変数の値があります。それらと、光の当て方(色の違うLEDの出力)、光を当てる時間、水のやり方、水耕栽培で流す栄養素、CO2濃度などと「関数関係+ばらつき」としてまとめなければなりません。これらは多くの変数同士の関係式をフィッティングで探すことになりますが、多数の個体について全部やろうとすると計算時間が極めて長くなる「次元の呪い」という現実にぶつかります。
https://ja.wikipedia.org/wiki/%E6%AC%A1%E5%85%83%E3%81%AE%E5%91%AA%E3%81%84
そこで編み出されたのが、ランダムにサンプルを取ってきて一部を使う方法、「マルコフ連鎖モンテカルロ法、略してMCMC」と呼ばれる方法です。
https://ja.wikipedia.org/wiki/%E3%83%9E%E3%83%AB%E3%82%B3%E3%83%95%E9%80%A3%E9%8E%96%E3%83%A2%E3%83%B3%E3%83%86%E3%82%AB%E3%83%AB%E3%83%AD%E6%B3%95
これは、簡単に言うとサイコロを振って次にどの個体のどの性質をフィッテイングデータとして取り入れるか、を決める方法で、マルコフ連鎖は「過去の記憶を持たず、現在の状態だけで決まる(例:千日手を無視した囲碁や将棋)」こと、モンテカルロは「モンテカルロで有名なルーレットのように、乱数で決める」ことから名前がついています。この方法を使えば、多数の変数がかかわる多次元空間の問題を、「多次元空間の中で次にどの点に行くかという道筋」の1次元問題に焼き直すことができるので、「次元の呪い」を逃れることができます(もちろん、正確性を犠牲とした近似になりますが、もともとスパっと解ける話には使いません)。有用な解析パッケージもいろいろできています。今年の夏の集中講義(学外者も履修可能)ではちょっと詳しめに実習しようと準備中です。
英語は、https://en.wikipedia.org/wiki/Markov_chain_Monte_Carlo から
Markov chain マルコフ連鎖
Monte Carlo モナコの地区名。カジノで有名。
equilibrium distribution エクイ「りー」ブリアム 平衡分布
actual desired distribution 実際の望ましい分布
“MCMC is primary used for calculating numerical approximations of multi dimensional integrals.” MCMCは第一に高次元積分を数値的に近似計算するのに用いられる。
hierarchical models ハイア「ラー」キカる 階層モデル
stochastic processes of “walkers” 「歩き手」の確率的過程
autocorrelated 自己相関を持つ
curse of dimensionality 次元の呪い カース=呪い
“These algorithms usually rely on a more complicated theory and are harder to implement, but they usually converge faster.” これらのアルゴリズムはもっと複雑な理論に基づいており実装は面倒であるが、たいていより速く収束する。
converge コン「ヴァ」ージ 収束する