Posted in技術・工学・物理・数学
Bellman方程式
Bellman方程式は、E=mc2などと違ってパッと見てもよくわかりません。 いろいろな書き方ができますが、添え字無しで書く方法だと V(x)=max [F(x,a)+βV(T(x,a))] です。この説明に講義では1時間使いますが、簡単に書いてみましょう。 囲碁や将棋などの戦略的ゲームを例にとると、xは現在の盤面、V(x)は現在の盤面の評価(どのくらい良いかという点数。ふつうは最大を1にします)。 右辺のaは次の1手です。F(x,a)は、盤面xに対して手aを売ったときの損得。T(x,a)はxとaの組み合わせに対して相手が打った後の盤面で、その評価がV(T(x,a))です。 相手が最善手を打つ…