又稱統計假設檢驗,是一種基本的統計推斷形式,也是數理統計學的一個重要的分支。“假設”是指關於總體分佈的一項命題。例如,一群人的身高服從正態分佈N(μσ2),則命題“均值μ≤1.70(米)”是一個假設。又如,有一批產品,其廢品率為p,則“p≤0.033”這個命題也是一個假設。假設是否正確,要用從總體中抽出的樣本進行檢驗,與此有關的理論和方法,構成假設檢驗的內容。

  設A是關於總體分佈的一項命題,所有使命題A成立的總體分佈構成一個集合h0,稱為原假設(常簡稱假設)。使命題A不成立的所有總體分佈構成另一個集合h1,稱為備擇假設。如果h0可以通過有限個實參數來描述,則稱為參數假設,否則稱為非參數假設(見非參數統計)。如果h0(或h1)隻包含一個分佈,則稱原假設(或備擇假設)為簡單假設,否則為復合假設。對一個假設h0進行檢驗,就是要制定一個規則,使得有瞭樣本以後,根據這規則可以決定是接受它(承認命題A正確),還是拒絕它(否認命題A正確)。這樣,所有可能的樣本所組成的空間(稱樣本空間)被劃分為兩部分HAHR(HA的補集),當樣本xHA時,接受假設h0;當xHR時,拒絕h0。集合HR常稱為檢驗的拒絕域,HA稱為接受域。因此選定一個檢驗法,也就是選定一個拒絕域,故常把檢驗法本身與拒絕域HR等同起來。

  顯著性檢驗 有時,根據一定的理論或經驗,認為某一假設h0成立,例如,通常有理由認為特定的一群人的身高服從正態分佈。當收集瞭一定數據後,可以評價實際數據與理論假設h0之間的偏離,如果偏離達到瞭“顯著”的程度就拒絕h0,這樣的檢驗方法稱為顯著性檢驗。怎樣去規定什麼時候偏離達到顯著的程度?通常是指定一個很小的正數α(如0.05,0.01),使當h0正確時,它被拒絕的概率不超過α,稱α為顯著性水平。這種假設檢驗問題的特點是不考慮備擇假設,就上例而言,問題可以說成是考慮實驗數據與理論之間擬合的程度如何,故此時又稱為擬合優度檢驗。擬合優度檢驗是一類重要的顯著性檢驗。

  K.皮爾森在1900年提出的ⅹ2檢驗是一個重要的擬合優度檢驗。設原假設h0是:“總體分佈等於某個已知的分佈函數F(x)”。把(-∞,∞)分為若幹個兩兩無公共點的區間I1I2,…,Ik,對任一個區間

,以 v j記大小為 n的樣本 X 1X 2,…, X n中落在 I j內的個數,稱為區間 I j的觀測頻數,另外,求出 I j的理論頻數 (對 j=1,2,…, k都這樣做),再算出由下式定義的ⅹ 2統計量

皮爾森證明瞭:若 j=1,2,…, k,則當 n→∞時,ⅹ 2的極限分佈是自由度為 k-1的ⅹ 2分佈。於是在樣本大小 n相當大時,從ⅹ 2分佈表可查得ⅹ 2分佈的上 α分位數(見 概率分佈)ⅹ ( k-1)。由此即得檢驗水平為 α的拒絕域:{ⅹ 2≥ⅹ α( k-1)}。如果原假設 h 0為:總體服從分佈族{ F θθ∈Ⓗ},式中 θ為未知參數,Ⓗ為 θ的所有可能取值的集合(稱參數空間),也可得到類似的拒絕域,隻要在計算理論頻數 v j時,將所包含的未知參數 θ用適當的 點估計代替,即可計算 ⅹ 2統計量。但此時極限分佈的自由度為 k-Л-1,式中Л為 θ中的獨立參數的個數。柯爾莫哥洛夫檢驗(見 非參數統計)也是一個重要的擬合優度檢驗方法。

  奈曼-皮爾森理論 J.奈曼與 E.S.皮爾森合作,從1928年開始,對假設檢驗提出瞭一項系統的理論。他們認為,在檢驗一個假設h0時可能犯兩類錯誤:第一類錯誤是真實情況為h0成立(即θ∈Ⓗ0),但判斷h0不成立,犯瞭“以真為假”的錯誤。第二類錯誤是h0實際不成立(即θ∈Ⓗ1),但判斷它成立,犯瞭“以假為真”的錯誤(見表)。

奈曼-皮爾森理論

這裡Ⓗ 0,Ⓗ 1分別是使假設 h 0成立或不成立的 θ的集合,顯然Ⓗ=Ⓗ 0+Ⓗ 1。當 θ∈Ⓗ 0,樣本 X(即 X 1X 2,…, X n組成的向量)∈ H R,其概率 P θ( X∈H R)就是犯第一類錯誤的概率 α;當 θ∈Ⓗ 1,樣本 XH A,其概率 就是犯第二類錯誤的概率 β。通常人們不希望輕易拒絕 h 0,例如工廠的產品一般是合格的,出廠進行抽樣檢查時不希望輕易地被認為不合格,於是在限定犯第一類錯誤的概率不超過某個指定值 α(稱為檢驗水平)的條件下,尋求犯第二類錯誤的概率盡可能小的檢驗方法。為瞭描述檢驗的好壞,稱θ的函數 P θ( X∈H R)為檢驗的功效函數。例如上述產品檢驗的例子中,所采用的檢驗可以是:當樣品中的廢品個數超過一定限度時,認為該批產品不合格,否則就認為合格。這個檢驗的功效函數有圖示的形狀,圖 中的 p 0p 1αβ根據需要選定。這種圖形清楚地描述瞭犯兩類錯誤的概率。

  優良性準則 基於奈曼-皮爾森理論及統計決策理論,可以提出一些準則,來比較為檢驗同一假設而提出的各種檢驗。較重要的準則有:

  一致最大功效(UMP)準則 欲檢驗h0θ∈Ⓗ0h1θ∈Ⓗ1;當給定檢驗水平α後,在所有滿足

的可供選擇的檢驗 H R中,是否有一個最好的,亦即:是否存在拒絕域 H ,使得對於所有 θ∈Ⓗ 1及一切檢驗水平為 αH 皆有 。若這樣的檢驗存在,則稱H R為檢驗水平 α的一致最大功效檢驗,簡稱UMP檢驗。奈曼與皮爾森在1933年提出瞭著名的奈曼-皮爾森引理。這是對簡單假設尋求UMP檢驗的一個構造性的結果,即此時似然比檢驗就是UMP檢驗。對某些復合假設也找到瞭 UMP檢驗,但並不是所有情況都存在 UMP檢驗。因此有必要在對檢驗作某些限制下尋找最大功效檢驗或建立另外一些優良性準則。

  無偏性準則 要求檢驗在備擇假設h1成立時作出正確判斷的概率不小於檢驗水平α,這就是說在h0不成立時拒絕h0的概率要不小於在h0成立時拒絕h0的概率,這種性質稱為無偏性,具有這種性質的檢驗稱為無偏檢驗。顯然,如果在無偏檢驗中存在一致最大功效檢驗就稱為一致最大功效無偏檢驗(簡稱UMPU檢驗)。UMP檢驗不存在時,仍可能有UMPU檢驗存在。例如正態總體中方差未知時,為檢驗均值μμ0t檢驗就是UMPU檢驗,但不是UMP檢驗。

  因為假設檢驗在統計決策理論中是一種特殊的統計決策問題,兩類錯誤影響可用特殊損失來表示。例如選取特殊的損失函數,使正確判斷時損失為零,錯判時損失為1。它就可歸結為犯第一類錯誤的概率α和犯第二類錯誤的概率β。這同用功效函數Pθ(XHR)來敘述是一致的。因此把統計決策理論中容許性、同變性、貝葉斯決策、最小化最大等概念引進來,而得到容許檢驗、同變檢驗、貝葉斯檢驗和最小化最大檢驗。在同變檢驗限制下,又可以建立一致最大功效同變檢驗的概念。這些準則又可作為假設檢驗的優良性準則,從而擴大瞭假設檢驗的內容。

  尋求在一定準則下的最優檢驗是很困難的,何況這種最優檢驗有時並不存在。於是提出瞭若幹依據直觀的推理法,其中最重要的是似然比法。

  似然比檢驗 運用與最大似然估計(見點估計)類似的原理,可得到似然比檢驗法。設樣本X的分佈密度即似然函數為l(xθ),θ∈Ⓗ,欲檢驗的假設為h0θ∈Ⓗ0,稱

為似然比。顯然0≤ ( x)≤1,當 ( x)太小時就拒絕 h 0,否則接受 h 0,其臨界值 λ 0由檢驗水平 α ( x)在 h 0成立時的分佈確定,即 。然而,在一般情況下,尋求 ( x的精確分佈並不容易。1938年S.S.威爾克斯證明瞭:在相當廣泛的條件下,- 2l n ( x)是漸近ⅹ 2分佈的,這就為大樣本的似然比檢驗提供瞭實行的可能。

  用似然比法導出的重要檢驗有:

  U檢驗 若總體遵從正態分佈N(μσ2),其中σ已知,X=(X1X2,…,Xn)是從總體中抽取的簡單隨機樣本,記

U檢驗 ,則 U檢驗 遵從標準正態分佈 N(0,1),於是可考慮對μ的以下幾種假設 U檢驗 的檢驗,其中 μ 0是給定的常數, α為檢驗的水平, u α為標準正態分佈的上 α分位數。上述檢驗稱為 U檢驗。

  t檢驗 若總體服從正態分佈N(μσ2),但σ未知,記

t檢驗 t檢驗 ,則 t= t檢驗 遵從自由度為 n-1的 t分佈,可對μ有以下的水平為 α的檢驗 t檢驗 ,其中 t α為自由度為 n-1的 t分佈的上 α分位數。這些檢驗稱為 t檢驗。

  F檢驗 若X=(X1X2,…,

F檢驗 )及 Y=( Y 1Y 2,…, F檢驗 )分別為來自正態總體 Nμ 1σ 1 2)及 Nμ 2σ 2 2)的簡單隨機樣本,記 F檢驗 F檢驗 F檢驗 F檢驗 ,則 F檢驗 遵從自由度為 n 1-1, n 2-1的 F分佈,對比較 σ 1 2σ 2 2的假設有以下的水平為 α的檢驗 F檢驗 ,其中 F α為自由度為( n 1-1, n 2-1)的 F分佈的上 α分位數。這些檢驗稱為 F檢驗,在方差分析中有廣泛的應用。

  

參考書目

 E.L.Lehmann,Testing Statistical Hypothesis,John Wiley &Sons,New York,1959.