今週は、Bellman方程式の話をしましょう。今年のノーベル賞のAI関連でも多用されている重要概念の一つです。囲碁や将棋などの棋譜を大量に解析して、与えられた局面での最善手を求めたり、ある局面での勝率を計算したりできます。テレビ中継などで「AIの判定する勝率」で出てくる値ですね。これは、1953年にRichard E.Bellmanが33才で発見した、勝利につながる手の必要条件を与える漸化式です。先々週お休みをいただいているとき、Bellman方程式と解析力学のHamilton-Jacobi方程式との類似性、量子力学との関連を指摘する本を読みました。そのあたりを解説できるといいと思います。
Bellman教授は修士号のあと米軍のLos Alamos研究所で働き、戦後プリンストン大学で博士号をとりました。それからスタンフォード大学を経て米軍関係のシンクタンクであるRand研究所に在籍しているときにBellman方程式を発表、その後University of Southern Californiaの教授になっています。
https://ja.wikipedia.org/wiki/%E3%83%99%E3%83%AB%E3%83%9E%E3%83%B3%E6%96%B9%E7%A8%8B%E5%BC%8F
Rand研究所はNPOですが米国政府にサポートされ、かなり米国の安全保障に近い研究所のようです。研究者は1000人強、予算は年間3億ドル強=一人当たり4500万円(人件費含む)。報告書は非公開のものが多いとのこと。一時在籍を含む関係者からノーベル賞を27人出しているということですが、ざっと見たところ経済学賞が多いです。
https://ja.wikipedia.org/wiki/%E3%83%A9%E3%83%B3%E3%83%89%E7%A0%94%E7%A9%B6%E6%89%80
https://www.rand.org/content/dam/rand/pubs/corporate_pubs/CP600/CP628z5-2018-10/RAND_CP628z5-2018-10.pdf (pdf注意)
英語は https://en.wikipedia.org/wiki/Dynamic_programming から。
“Dynamic programming is both a mathematical optimization method and an algorithmic paradigm. The method was developed by Richard Bellman in the 1950s and has found applications in numerous fields, from aerospace engineering to economics. ”
Dynamic programming 動的計画法 と訳します。
optimization 最適化
algorithmic paradigm アるゴ「リ」ずミック 「パ」ラダイム アルゴリズム上の規範 「パラダイム」はぴったりとした日本語が決まっていません。規範、模範、典型、ある時代の人々の考え方を支える概念、など。そのまま「パラダイム」で使うことも多いです。
”In both contexts it refers to simplifying a complicated problem by breaking it down into simpler sub-problems in a recursive manner.”
context 文脈
recursive 回帰的
“If sub-problems can be nested recursively inside larger problems, so that dynamic programming methods are applicable, then there is a relation between the value of the larger problem and the values of the sub-problems. In the optimization literature this relationship is called the Bellman equation. ”
nested 入れ子になっている
in the optimization literature this… 最適制御関連の文献ではこの関係式をベルマン方程式と呼ぶ。
”In economics, the objective is generally to maximize (rather than minimize) some dynamic social welfare function.”
economics 経済学
objective 目標
some dynamic social welfare function 何らかの動的な社会福祉関数