關於兩個或多個局中人按一定規則處於競爭狀態下的決策行為的數學理論,又稱博弈論。對策論是運籌學的一個分支,起源於對室內遊戲(如象棋、撲克等)局中人的行為和得失的研究,後來發展成為研究帶有競爭因素的社會現象的一種數學方法。在社會、經濟、管理等與人類活動有關的複雜系統中,人的行為受感情、心理、經驗等因素的偶然變化影響,從而使系統具有很大的不確定性。而且,系統中決策人互相影響,並按各自的利益和知識進行對策,又使問題進一步複雜化。此時,每人都把別人當作自己的“控制對對象”,卻又無法精確預測別人的行為,取得必需的信息,他們互相間還可能故意隱瞞真情,制造假象。對策論為局中人在這種高度不確定性和競爭性的環境中提供瞭一套完整的、可以定量化、程序化的選擇策略的理論和方法。對策論已應用於社會、經濟和軍事等方面,如對商品、消費者、生產者之間供求平衡的分析,利益集團間協商和談判以及潛艇和飛機等作戰模型的研究等,也可用於人類開發自然界的分析。

  簡史 1921年法國數學傢E.博雷爾最早提出對策論。1928年美國數學傢 J.von諾伊曼證明瞭對策論中最重要的鞍點定理。1944年von諾伊曼和O.莫根施特恩建立瞭對策論的公理化系統,共同發表《競賽理論與經濟行為》一書,奠定瞭對策論的理論基礎。

  效用函數 它綜合反映瞭局中人的利益,包括收益、支付的費用或勞動、舒適或安全等因素,並可用來刻劃人在風險條件下的決策行為。這些因素需要加以定量描述和歸並,例如通過邊際價格全部換算為錢的尺度,從而可以互相比較。人們一般具有回避風險的保守心理,這使效用函數呈凸性,即隨著支付錢的增多效用值趨於飽和。反之,對於傾向冒險的人,效用函數則呈凹性。因此,不同的人有不同的效用函數,甚至同一人在不同的條件下也有不同的效用函數。在對實際問題進行定量分析時,需要從觀測數據來估算效用函數的具體參數,以便確定局中人的對策行為。效用函數uω)是定義在結局集合Ω={ω}上的有界實函數。若兩種具有不確定性的局勢 F1 F2 Ω上的概率分佈密度分別為 P1(ω)和P2ω),則局勢F1劣於F2(記作F1F2)就可定量地表示為

效用函數具有3個性質:①若u為效用函數,則u′=αu+β(α >0)也是效用函數。②若FG,u 存在,則任給ab,均存在效用函數u′,使u(F)=ɑ,u′(G)=b。③若 uu′均為效用函數,則存在α ,β(α >0)使u′=α u+β

  數學描述 社會、經濟、管理等系統的特點是存在眾多相互影響的決策人(局中人),而且他們的利益不同,甚至是對抗和沖突的。在現代社會中,人類活動范圍日益廣闊,制定完善策略所需知識和信息愈益增加,已經達到任何一個決策人或機構無法完全收集和處理的程度。信息和決策功能分散化已勢在必行,而各種信息在決策人之間的分配情況(稱為信息結構)則直接影響決策的結果。各種社會組織結構形式和社會、經濟的發展規律又決定瞭各人參與決策的次序和規則,它們同各種遊戲和體育規則一樣,對決策方法和結果有重要影響。而且人本身的決策行為也存在不確定因素。可以從以下 6個方面描述對策論的這些有關問題。①設總共有 N個決策人,分別記為DM1,DM2,…,DMN。第i個決策人DMi所選用的決策量記為 ui。用uiUi表示ui可在某個集合Ui中取值。Ui可以是有限元素集合、區間或函數空間(此時ui為函數,對應於微分對策問題)。②各個DMi的目標是使他的效用函數Ji達到極大。Ji不僅受到其他人的決策量的影響,而且還可能受到隨機因素ξ的影響。所以Ji可寫成

Ji=Ji(u1u2,…,uN,ξ)

對策人假定均以追求各自的Ji的概率平均值EξJi(稱為支付函數)作為行為的準則。隨機量是人們無法控制的,有時稱為“大自然的選擇”。③每個DMi作決策時所能依據的信息為yi=ηi(u1u2,…,uN,ξ),稱為信息結構。yi通常需要付出一定代價由觀測或通信得到。④由yi決定ui的規則即稱為DMi的策略,記為γi。這實際上就是函數關系uii(yi)。γi可能具有更抽象的含義,例如可以是把一個函數映射到另一個函數的映射。根據具體問題,對 γi可能還希望滿足諸如連續性、可測性之類數學條件並要有有效的算法。⑤規定對策的法則,包括各人決策的邏輯或時間順序以及決策的方法和內容等,例如宣佈一個策略,提供一些信息或采取某種行動。⑥對各DMi的行為特征做出假定。例如,冒險或保守,是否願意合作等。

  研究內容 對策論按局中人數N 的多少可分為二人對策或多人對策;按局中人的合作態度可分為合作對策和非合作對策;按局中人支付函數的總和是否固定可分為零和對策與非零和對策。對策論中研究歷史最長、最成熟的是二人零和對策,即N=2,J1+J2=0時的對策問題,DM1所得就是DM2所失。這是完全對抗性的,沒有任何妥協餘地。許多戰爭、對抗和競賽問題都可以應用這種模型。當所有局中人都為一個共同決策目標函數J1=…=JN=J而奮鬥時,由於各人擁有信息不同而不能集中起來處理,也無法實現完善合作。這類對策問題屬於隊決策理論的研究內容,主要是研究信息結構同系統品質和控制策略的關系。它可為大型分散控制系統信息結構和相應的控制策略提供設計參考。當各局中人(DMi)之間不能預先確定合作行動時,對策論的解為納什平衡,即非合作平衡解,可應用於社會經濟等方面的大量問題。當各局中人之間具有一定合作性時,對策論的解為帕雷托最優和協商解,可應用於經濟行為研究。局中人分居不同層次時的對策問題稱為主從對策,也稱為斯塔克爾貝格對策。其主要思想是上級的策略如何通過獎罰手段以誘導或激勵下級的行動,使上下級都能獲得最高的收益。這種模型反應瞭社會、經濟和管理系統中的層次結構,可用於研究宏觀控制政策的制定。對策論的研究內容還涉及決策人的合作可能性和由此引起的群體行為,即由小系統相互作用形成大型復雜系統的宏觀特性的問題。此外,動態對策問題,即微分對策也是對策論的重要研究領域,它的特點是過程信息可不斷反饋回來而用於瞭解對手的特性,並可據以采取靈活的反應。這給各類對策問題帶來許多新發展的可能性。在微分對策的研究中,自動控制理論的概念和方法發揮瞭很大作用。現代多人決策理論可看作是管理科學、對策論和自動控制理論交叉融合的結果。

  

參考書目

 J.von諾伊曼,摩根斯頓著,王建華、顧瑋琳譯:《競賽論與經濟行為》,科學出版社,北京,1963。(J.vonNeuman and O.Morgenstern, Theory of games and economic behavier, Princeton Univ.Press,Princeton,1944.)

 G.Owen, Game Theory, Academic Press,New York,1982.