動態規劃中求最優策略的基本方法之一。它借助於動態規劃基本方程,交替使用“求值計算”和“策略改進”兩個步驟,求出逐次改進的、最終達到或收斂於最優策略的策略序列。
例如,在最短路徑問題中,設給定M個點1,2,…,M。點M是目的點,сij>0是點i到點j的距離i≠j,сij=0,i,j=1,2,…,M,要求出點i到點M的最短路。記f(i)為從i到M的最短路長度。此問題的動態規劃基本方程為
![](/img3/1980.gif)
![](/img3/1981.gif)
再由f0(i)求改進的一次迭代策略u1(i),使它是下列最小值問題的解:
![](/img3/1982.gif)
①求值計算 由策略un(i)求相應的值函數fn(i),即求下列方程的解:
![](/img3/1983.gif)
②策略改進 由值函數fn(i)求改進的策略,即求下列最小值問題的解:
![](/img3/1984.gif)
在一定條件下,由任選的初始策略出發,輪換進行這兩個步驟,經有限步N後將得出對所有i,uN+1(i)=uN(i)這樣求得的uN(i)就是最優策略,相應的值函數fN(i)。是方程(1)的解。
對於更一般形式的動態規劃基本方程
![](/img3/1985.gif)
①求值計算 由策略un(x)求相應的值函數 fn(x),即求方程
![](/img3/1986.gif)
②策略改進 由值函數fn(x)求改進的策略un+1(x),即求最優值問題
![](/img3/1987.gif)
對於滿足適當條件的方程(2)和初始策略,上述兩個步驟的解存在,並且在一定條件下,當n→
![](/img3/1988.gif)
策略迭代法最初是由R.貝爾曼提出的。1960年,R.A.霍華德對於一種馬爾可夫決策過程模型,提出瞭適用的策略迭代法,給出瞭相應的收斂性證明。後來,發現策略迭代法和牛頓迭代法在一定條件下的等價性,於是,從算子方程的牛頓逼近法的角度去研究策略迭代法,得到瞭發展。
對於范圍很廣的一類馬爾可夫決策過程,其動態規劃基本方程可以寫成
![](/img3/1989.gif)
![](/img3/1990.gif)
![](/img3/1991.gif)
![](/img3/1992.gif)
![](/img3/1993.gif)
![](/img3/1994.gif)