動態規劃中求最優策略的基本方法之一。它借助於動態規劃基本方程,交替使用“求值計算”和“策略改進”兩個步驟,求出逐次改進的、最終達到或收斂於最優策略的策略序列。

  例如,在最短路徑問題中,設給定M個點1,2,…,M。點M是目的點,сij>0是點i到點j的距離i≠j,сij=0,i,j=1,2,…,M,要求出點i到點M的最短路。記f(i)為從i到M的最短路長度。此問題的動態規劃基本方程為

    (1)

其策略迭代法的程序如下:選定一初始策略 u 0(i),在這問題中,策略 u(i)的意義是從點i出發走一步後到達的點,而且作為策略,它是集{1,2,…, M-1}上的函數。由 u 0(i)解下列方程組求出相應的值函數 f 0(i):

再由f0(i)求改進的一次迭代策略u1(i),使它是下列最小值問題的解:

然後,再如前面一樣,由 u 1(i)求出相應的值函數 f 1(i),並由 f 1(i)求得改進的二次迭代策略 u 2(i),如此繼續下去。可見求解(1)的策略迭代法的程序由下列兩個基本步驟組成:

  ①求值計算 由策略un(i)求相應的值函數fn(i),即求下列方程的解:

  ②策略改進 由值函數fn(i)求改進的策略,即求下列最小值問題的解:

式中規定,如 u n(i)是上一問題的解,則取 u n +1(i)= u n(i)。

  在一定條件下,由任選的初始策略出發,輪換進行這兩個步驟,經有限步N後將得出對所有i,uN+1(i)=uN(i)這樣求得的uN(i)就是最優策略,相應的值函數fN(i)。是方程(1)的解。

  對於更一般形式的動態規劃基本方程

     (2)

這裡f, H,φ為給定實函數。上述兩個步驟變成:

  ①求值計算 由策略un(x)求相應的值函數 fn(x),即求方程

之解, n=0,1,2…。

  ②策略改進 由值函數fn(x)求改進的策略un+1(x),即求最優值問題

的解。

  對於滿足適當條件的方程(2)和初始策略,上述兩個步驟的解存在,並且在一定條件下,當n

時,所得序列{f n( x)}與{ u n( x)}在某種意義下分別收斂於(2)的解和最優策略。

  策略迭代法最初是由R.貝爾曼提出的。1960年,R.A.霍華德對於一種馬爾可夫決策過程模型,提出瞭適用的策略迭代法,給出瞭相應的收斂性證明。後來,發現策略迭代法和牛頓迭代法在一定條件下的等價性,於是,從算子方程的牛頓逼近法的角度去研究策略迭代法,得到瞭發展。

  對於范圍很廣的一類馬爾可夫決策過程,其動態規劃基本方程可以寫成

;式中f∈ V,對所有 γ∈Γ: r(γ)∈ V,γ為 VV的線性算子,Γ為這種算子的族,而 V則是由指標值函數所構造的函數空間。假設 當 f(γ)是方程 r(γ)+γf=0的解時,它是對應於策略γ的指標值函數。最優策略 γ 定義為最優值問題 的解。這時由策略迭代法所求得的序列 { f n}和{γ n}滿足下列關系 其中 為 γ n +1的逆算子。當σ是加托可微時,γ n +1是σ在f n處的加托導數。於是,上面的關系恰好表達瞭牛頓迭代法在算子方程中的推廣。