策略迭代法-百科詞條

　　動態規劃中求最優策略的基本方法之一。它借助於動態規劃基本方程，交替使用“求值計算”和“策略改進”兩個步驟，求出逐次改進的、最終達到或收斂於最優策略的策略序列。

　　例如，在最短路徑問題中，設給定M個點1，2，…，M。點M是目的點，с_ij＞0是點i到點j的距離i≠j，с_ij=0，i，j=1，2，…，M，要求出點i到點M的最短路。記f(i)為從i到M的最短路長度。此問題的動態規劃基本方程為

　　　(1)
其策略迭代法的程序如下：選定一初始策略 u ₀(i)，在這問題中，策略 u(i)的意義是從點i出發走一步後到達的點，而且作為策略，它是集{1，2，…， M-1}上的函數。由 u ₀(i)解下列方程組求出相應的值函數 f ₀(i)：

再由f₀(i)求改進的一次迭代策略u₁(i)，使它是下列最小值問題的解：

然後，再如前面一樣，由 u ₁(i)求出相應的值函數 f ₁(i)，並由 f ₁(i)求得改進的二次迭代策略 u ₂(i)，如此繼續下去。可見求解(1)的策略迭代法的程序由下列兩個基本步驟組成：

　　①求值計算　由策略u_n(i)求相應的值函數f_n(i)，即求下列方程的解：

　　②策略改進　由值函數f_n(i)求改進的策略，即求下列最小值問題的解：

式中規定，如 u _n(i)是上一問題的解，則取 u _n ₊₁(i)= u _n(i)。

　　在一定條件下，由任選的初始策略出發，輪換進行這兩個步驟，經有限步N後將得出對所有i，u_N₊₁(i)=u_N(i)這樣求得的u_N(i)就是最優策略，相應的值函數f_N(i)。是方程(1)的解。

　　對於更一般形式的動態規劃基本方程

　　　　　(2)
這裡f， H，φ為給定實函數。上述兩個步驟變成：

　　①求值計算　由策略u_n(x)求相應的值函數 f_n(x)，即求方程
之解， n=0，1，2…。

　　②策略改進　由值函數f_n(x)求改進的策略u_n₊₁(x)，即求最優值問題
的解。

　　對於滿足適當條件的方程(2)和初始策略，上述兩個步驟的解存在，並且在一定條件下，當n→
時，所得序列{f _n( x)}與{ u _n( x)}在某種意義下分別收斂於(2)的解和最優策略。

　　策略迭代法最初是由R.貝爾曼提出的。1960年，R.A.霍華德對於一種馬爾可夫決策過程模型，提出瞭適用的策略迭代法，給出瞭相應的收斂性證明。後來，發現策略迭代法和牛頓迭代法在一定條件下的等價性，於是，從算子方程的牛頓逼近法的角度去研究策略迭代法，得到瞭發展。

　　對於范圍很廣的一類馬爾可夫決策過程，其動態規劃基本方程可以寫成
；式中f∈ V，對所有 γ∈Γ： r(γ)∈ V，γ為 V→ V的線性算子，Γ為這種算子的族，而 V則是由指標值函數所構造的函數空間。假設當 f(γ)是方程 r(γ)＋γf＝0的解時，它是對應於策略γ的指標值函數。最優策略 γ 定義為最優值問題的解。這時由策略迭代法所求得的序列 { f _n}和{γ _n}滿足下列關系其中為 γ _n ₊₁的逆算子。當σ是加托可微時，γ _n ₊₁是σ在f _n處的加托導數。於是，上面的關系恰好表達瞭牛頓迭代法在算子方程中的推廣。