Bellman方程式

Bellman方程式は、E=mc2などと違ってパッと見てもよくわかりません。
いろいろな書き方ができますが、添え字無しで書く方法だと
V(x)=max [F(x,a)+βV(T(x,a))]
です。この説明に講義では1時間使いますが、簡単に書いてみましょう。
囲碁や将棋などの戦略的ゲームを例にとると、xは現在の盤面、V(x)は現在の盤面の評価(どのくらい良いかという点数。ふつうは最大を1にします)。
右辺のaは次の1手です。F(x,a)は、盤面xに対して手aを売ったときの損得。T(x,a)はxとaの組み合わせに対して相手が打った後の盤面で、その評価がV(T(x,a))です。
相手が最善手を打つとすれば次の盤面T(x,a)は一つに決まりますが、色々な手を打つことを考えることもできます。
βは、一手先の評価が現在の評価に与える影響を弱めるための定数(逓減率)で、1より少し小さい数にします。経済学では、未来の1万円は現在の9900円に値するのでβ=0.99などと使います。この方程式が言っていることは、盤面xに対する評価V(x)は、いろいろな手aに対してF(x,a)+βV(T(x,a))を求めたときの最大値である、ということです。
これだけでは何も求まりませんが、勝利した瞬間の盤面がT(x,a)とすると、勝利した盤面のV(T(x,a))は1(最大値)で、損得F(x,a)も正の大きな値になります。それにより1手前の状態xに対する評価V(x)と勝利につながった最善手aが求まります。こうしてたどっていくと各盤面xのV(x)と最善手aがわかります。また、盤面xに対してとれるいろいろな手aの点数をQ(x,a)として、点数に比例した確率で手を選びます。最初は試行錯誤のためQ(x,a)には乱数で適当な数値を入れておいて、繰り返しゲームをするとVとQが更新・改善され、勝てるようになってきます。このような自らの行動の結果を取り入れて行動規範を修正することを「強化学習」と呼び、機械学習の重要な一分野です。強化学習のアルゴリズムにはいろいろなものが提案されています。
Bellman方程式は1953年発表ですが、強化学習はコンピュータの発達により2000年ころから実用的になりました。時代を50年先取りした偉大な発明です。
βの選び方(ハイパーパラメータという)や改善のアルゴリズムは局面にも依存するので、それ自身を学習により改良することも強いプログラムでは行われています。棋譜を読み込ませたり、プログラム同士で戦わせたりして、囲碁、将棋、チェスなどは人間より強くなっています。適切に実社会をコンピュータに認識させられれば、我々の問題解決にも使えるのでは?というのは説得力のある論です。いろいろな本が出ていて、社会の問題はAI裁判官やAI政治家に任せた方がよいという人と、どこに連れていかれるかわからないのでAIに社会の問題を任せてはいけない、という人がいます。遠くない将来に国ごとにどっちにするか分かれると予想します。少子化問題を税制や補助金などの方策で解決できるかどうかが試金石ではないかと思いますが、学習過程での試行錯誤で大きな失敗は許されないところが難しいです。

英語は https://en.wikipedia.org/wiki/Bellman_equation から。 このwikipediaはわかりにくいです。
a necessary condition 必要条件
a sufficient condition 十分条件
a necessary and sufficient condition 必要十分条件
”This breaks a dynamic optimization problem into a sequence of simpler subproblems, as Bellman’s “principle of optimality” prescribes.”
break 分割する
a sequence of simpler subproblems 一連のより単純な問題
prescribe 処方する
prescription drugs 処方薬(処方箋 a medical prescription)がないと販売できない薬
“In discrete time any multi-stage optimization problem can be solved by analyzing the appropriate Bellman equation. The appropriate Bellman equation can be found by introducing new state variables (state augmentation).”
discrete time 離散時間(囲碁や将棋のように、「手」が1つ1つ数えられる場合)
new state variables 新しい状態変数
augmentation オーグメンテイション 拡張 AR augmented reality 拡張現実
curse of dimensionality 次元の呪い
“Alternatively, it has been shown that if the cost function of the multi-stage optimization problem satisfies a “backward separable” structure, then the appropriate Bellman equation can be found without state augmentation.”
alternatively 代わりに
cost function コスト関数 (上記のFのこと)

Leave a Comment

Comments

No comments yet. Why don’t you start the discussion?

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA