對策論中的多級遞階決策問題,又稱主從對策,由經濟學傢 H.von斯塔克爾貝格提出。社會現象的結局通常是由許多決策人的行動共同決定的。而這些決策人分居不同層次,形成所謂多級遞階的決策系統。上層決策人具有一定權威,起著主導作用,有時代表全局的利益。他們對整個系統的控制可以通過操縱一些“杠桿”變數來影響下級的行為而實現。例如,用國傢調節利率、稅收、投資等決策量來控制各部門各單位的行為而實現全局最優,企業通過分配、獎勵等手段來引導職工採取合作行為以提高整體的效益,,都屬於主從對策。以下標L表示主導者,xLzLxLγL(zL)和KL分別表示主導者的決策變量、信息、策略和目標函數。以下標 F表示隨從者,隨從者的對應量為xFzFxFγL(zF)和KF。斯塔克爾貝格決策問題就是上級如何選擇並宣佈他的策略γL,使下級對此γL的理性響應最符合上級的需要。在最簡單的情況下,上級隻能決定並預先宣佈一個xL的值,力圖獲得最好的結果。這時F根據他的信息zFxL選擇xF,使KF最大,即

xFγF(xL)=

KF( xLxF)

這就是F對xL的理性響應。由於L掌握關於K的知識,他可預見,由xL可以獲得的最終收益為

KLKL(xLxF)=KL(xL,γF(xL))

因此 L可通過選擇xL使KL最大。對主從對策理論的深入研究主要是在70年代以後進行的。主從對策可分為靜態和動態兩類。

  靜態主從對策 靜態情形下雙方都隻作一次決策。如L隻選一個參數xL,宣佈之後F進行決策並確定xF,然後雙方一起執行。隻要L確實說到做到,這種預期的結果就必然出現。因此這種解是穩定的。如果 L采用欺騙手法,例如宣佈

,由於預計到 F的響應將為 ,而實際上卻采取 決策以牟取更多利益。結果,由於雙方都是“理性人”,都能進行合理的推理和計算,F也能預見到L的做法,他就會在一次性行動時亮出 。同樣L又預見到這點而采用 ,然後 等等。這種循環猜測過程無限繼續下去,如果收斂到極限值( x , x ),則滿足: )。這實際上就是非合作的 納什平衡解。對L來說這個結局往往不如主從對策好,這說明L的欺騙行為對己也不利,從而也說明主從對策的基本假定是合理的、成立的。在靜態主從對策中應用最廣泛的是二次對策,即 KLKF是決策量的二次函數,而且各約束條件均為線性關系,這時較易於求解。

  動態主從對策 動態主從對策的一般模型包含一個狀態演化過程:

式中x為狀態變量,uv分別表示主導人和隨從人的決策變量,它們對系統品質的影響將通過狀態x的變化而起作用。它們的目標函數為

式中[0,T]為進行決策的時間區間。L和F的決策仍然是分別希望使KLKF達到最大。設L已根據掌握的信息選擇瞭一個u*,將

)和 之後解出使 KF為最大的 v *(即最優控制問題),問題歸結為如何選擇 u *使所解出的 v *恰好使 KL也達到最大(相對於 u的其他選擇而言)。這樣得到的 u * v * 就是動態主從對策的解。動態主從對策的雙方可采用的決策形式依他們擁有的信息不同而不同,大致可分為開環策略、無記憶狀態反饋策略和有記憶狀態反饋的閉環策略。這些決策形式表示決策人利用信息反饋,靈活反應以改進自身地位的可能性。動態主從對策在理論上是個難題,在計算上也十分復雜。但它揭示瞭各種信息結構對結局的影響(即開環、反饋、閉環解之間的差別),有一定理論意義,同時也有很大的實際應用價值。