又稱計算概率統計,是概率論、數理統計、計算數學和電腦科學等學科之間的一個交叉性、邊緣性、應用性的學科分支,研究如何根據實際問題提出來的要求,利用概率論、數理統計中提供的概率統計模型,對試驗觀測資料或隨機類比資料進行統計分析處理,給出實際問題性質的統計描述、統計控制或統計預測的數值結果。

  概率統計計算應用廣泛,發展很快。研究的主要領域包括亂數據的統計分析計算、概率統計模型的隨機類比計算及它們在數位電腦上的具體計算實現現的程序包研制等三個相互關聯的方面。

  隨機數據的統計分析計算 在計算機上,對實際問題中給出的一組試驗觀測數據或概率統計模型的隨機模擬數據x1x2,…,xn進行分析計算。這裡,

,表示在第 i次試驗中或第 i次模擬中得到的觀測數據,可以是一個標量( m=1),也可以是一個向量( m>1)。根據 x i所含變量個數 m的不同( m=1或 m>1)和各次觀測模擬之間是否統計相關或相互獨立,在分析計算時使用不同的概率統計模型和不同的概率統計算法。對各次觀測或模擬間相互獨立的隨機數據,有一元( m=1)和多元( m>1)統計分析計算之分;對相關性的觀測數據,有處理平穩隨機數據的數字時間序列分析計算,處理突發隨機事件的隨機點過程計算,處理狀態離散的馬爾可夫鏈計算和處理各種觀測系統的數字濾波計算等。

  對一組給定的隨機觀測數據{xi}進行統計分析計算,重要的是選擇恰當的概率統計模型和有效的進行統計分析計算的算法。以對多元數據進行統計分析計算為例,目的各有不同:有的要求對觀測變量之間進行調整,使它們之間可以進行平衡和便於比較;有的要求在不影響結果的精度和可靠度的條件下,降低觀測數據的維數,化簡問題的結構;有的要求按照一定的標準,對數據進行分類或分組;有的要求給出觀測數據的方程或方程組,用這類模型解釋因變量的變異,預測系統的未來可能取值等等。因此,在多元分析計算中,不僅要明確進行分析計算的目的和觀測數據{xi}自身的一些性質和特點,而且還要瞭解各種不同的多元統計分析模型及其相應算法的特點。在多元統計分析計算中,進行統計分析的主要目的、相應可用的統計模型及其常用算法如圖

所示(箭頭指示出可選用的統計模型)。

  以多元回歸分析和多元判別分析為例,用這種統計分析模型進行計算,就是根據由變量組(x1x2,…,xmy)得到的相互獨立的n組觀測數據(xi1xi2,…,ximyi)(i=1,2,…,nnm),確定因變量y和自變量(x1x2,…,xm) 之間的關系,用於識別、預報、控制或分類。這裡,因變量y在回歸模型中取連續值,表示分析系統所處的水平;在判別模型中取離散值,表示系統的類別。對這組數據進行統計分析計算的目的,就是從給定的變量組(x1x2,…,xm)中,選取一個“最優”的子集:在回歸模型中,經計算給出回歸方程

,能夠解釋因變量 y的變異;在判別模型中,經計算給出判別函數,能夠將用 y表示的類別數據按類分開。所以,對給定的觀測數據進行分析計算時,主要註意力集中在最優變量子集選取的不同算法及其實現上。在實際問題中,預選自變量的個數 m和觀測的次數 n通常都很大,各個自變量之間也不相互正交,存在著錯綜復雜的相互關系,需要按照一定的標準對自變量 x i進行舍選。目前常用的算法有四種:①漸增法,把自變量按照各自重要性的大小,逐個選入回歸方程或判別函數;②漸降法,先把所有能引入的自變量全部引入回歸方程或判別函數,然後再把不重要的自變量逐個舍去;③舍選法,在把重要的自變量引入回歸方程或判別函數的同時,檢驗已在模型中的自變量是否繼續顯著,把不符合要求的自變量從中舍去;④最佳子集法,利用自變量各個不同子集合之間的關系,從所有可能的子集中選取最佳的子集。第三種算法最為常用,通常把它稱為逐步回歸和逐步判別算法。

  對系統中依賴於時間t的一個變量或一組變量x(t)進行觀測或模擬,在時間t的等距間隔 Δt上,得到一組有序離散相關的數集合x1x2,…,xn,其中xi=x(t0+iΔt)(i=1,2,…,n)稱為數字時間序列,分析這類數據的方法稱為數字時間序列分析,或簡稱為時間序列分析。這類方法包括時域中的相關分析,頻域中的譜分析和時間序列模型,特別是p階自回歸、q階滑動平均線性模型ARMA(pq)的識別、估計和檢驗的計算問題等。

  時間序列分析與回歸分析、判別分析等多元分析方法相比,發展較遲。由於在實際問題中應用的重要性和廣泛性,特別是數字計算機的迅速發展和一些重大算法(如快速傅裡葉變換算法)和理論(如模型識別理論)的突破,從一維時間序列到多維時間序列、從線性模型到非線性模型,都有很快的發展和廣泛的應用。

  在隨機數據統計分析計算中,利用數字計算機快速計算的特點,發展出一系列與傳統的統計計算不同的算法,如各種非參數統計算法、穩健性估計算法、刀切法和自助子樣法等,增強瞭概率統計計算處理實際問題的能力。

  概率統計模型的隨機模擬計算 隨機抽樣是概率統計中的一類經典方法。由於數字計算機的出現和發展,隨機抽樣作為一種算法在第二次世界大戰之後得到瞭迅速發展,並在許多不同的領域中得到瞭廣泛的應用。當時從事這一方法研究的物理學傢,借用歐洲著名賭城蒙特卡羅的名字,給該法起名為蒙特卡羅法。

  和隨機數據的統計分析計算不同,隨機模擬計算利用實際系統的概率統計模型,通過模擬計算,“仿造”系統的試驗觀測數據,進而分析系統的漸近統計性質。在數字計算機上,隨機模擬計算用系統概型的隨機數字模擬代替實際系統的物理模擬,用偽隨機數代替隨機變量的真實抽樣,這種雙重模擬計算,為概率統計計算解決實際問題開辟瞭不少新的應用領域。

  概率統計計算程序包 為方便使用者在計算機上使用統計算法已經研制出為數眾多的概率統計計算程序包,它們可提供完整配套的統計模型,快速可靠的算法,易於使用、便於移植和二次開發的各種計算機語言的程序。它們在計算機上的廣泛應用,既帶來瞭方便,也出現瞭一些值得註意的問題,主要集中在概率統計計算的誤用和濫用上。因此,具有模型自動檢驗、識別功能和有效算法選取功能的統計程序包更受到使用者的歡迎。

  

參考書目

 中國科學院計算中心概率統計組編著:《概率統計計算》,科學出版社,北京,1979。

 K.安斯倫、A.拉爾斯登、H.S.維爾夫編,中國科學院計算中心概率統計組譯:《數字計算機上用的數學方法(統計方法)》,第3卷,上海科學技術出版社,上海,1981。(K.Enslein,A.Ralston,H.S.Wilf,StatisticalMethods for Digital Computers,Vol.3,MatheMatical Methods for Digital Computers,JohnWiley and Sons,New York,1977.)