分析實驗資料的一種重要的數理統計學方法。其要旨是對樣本觀測值的總變差平方和進行適當的分解,以判明實驗中各因素影響的有無及其大小。這是由R.A.費希爾1923年首創的。設Y1Y2,…,Ynn個觀測值,

為平均值,稱 Y 1Y 2,…, Y n的變差平方和,簡稱總平方和,它反映觀測值在平均值上下波動的大小。當觀測值受到多種因素的影響時,每一因素都對平方和的值有影響,若能從平方和中分解出反映某一因素影響的那一部分(也用平方和的形式表示),則由這部分的大小就可以推斷該因素的影響是否顯著。但是,若試驗未經適當的設計,則所產生的數據難以進行平方和分解與相應的統計推斷。因此方差分析和 實驗設計法是密切相關的,不同的實驗設計相應於不同的方差分析形式,而方差分析理論對實驗設計的選擇又有指導作用。例如,進行一項作物品種與肥料的農業試驗,品種和肥料就是所考慮的兩個不同的因素,而各因素的不同取“值”,稱為該因素的水平。假定有 α個品種 A 1、…、 Aα與 b種肥料 B 1、…、 B b供選取,在水平 A iB j的組合條件下的試驗稱為一個處理。在這試驗中,全部可能的處理數目共有 α b個,即為因素 A(品種)與因素 B(肥料)的各自水平數的乘積。設每個處理種 r塊試驗田,以 Y ijk)記用第i個品種、第 j種肥料在第 k個重復試驗的地塊上所得試驗的畝產量,對不同的(i, jk), Y ijk)之值各不相同,它的總變差平方和為

( 是全部 Y ijk)的平均值),它反映瞭品種、肥料以及隨機誤差(它包含土壤的不均勻性等大量的不可控因素)的影響,通常又稱總平方和。在這種兩因素試驗情況下總平方和可以分解為四部分

,  (1)

式中

( Y ijk)- Y ij.) 2,而 Y 為固定i對一切 jkY ijk)的平均值, Y. j.與 Y ij.有類似的含義。 SS ASS B分別反映因素 AB各自對 SS T的貢獻,分別稱為因素 AB的主效應平方和。 SS AB反映由因素 AB的相互影響而對 SS T的貢獻,稱為 AB的交互效應平方和。 SS e反映隨機誤差的影響,通常稱誤差平方和。每項平方和都對應著一個“自由度”,就上例而言, SS ASS BSS ABSS e的自由度分別為 α-1、 b-1、( α-1)( b-1)和 α b( r-1)。分別記之為 f Af Af ef e。總平方和 SS T的自由度 f T定義為總的觀測次數減去1,即 α b r-1,它恰好是 f Af Af ef e之和,即有類似於(1)的分解式

      (2)

平方和除以各自的自由度稱為均方,記為 M S,例如 S S A/(α-1),等等。諸因素效應的大小,用它的均方與誤差均方的比值(記為 F)的大小來衡量,例如, F A= M S A/ M S e,反映因素 A的主效應對畝產的影響; F BM S B/ M S e反映因素 B的主效應對畝產的影響;

方差分析表 則反映 AB交互效應對畝產的影響。綜上結果,可以列成一個方差分析表(表 方差分析表 )。

  前述例子的模型可寫為

Yijk)=μαiβjγij+εijk),   (3)

式中i=1,…, αj=1,…, bk=1,…, rμ稱總平均; α iβ j分別稱品種( A)與肥料( B)的主效應,γ ijAB的交互效應,並且滿足約束條件:

。ε ijk)是隨機誤差。這是一個以 μα iβ j及γ ij(i=1,…, αj=1,…, b)為參數的線性模型(見 線性統計模型)。“品種無主效應”這個假設,可表為 H Aα i=0,i=1,…, α,這是一個線性假設。在隨機誤差ε ijk)獨立、等方差及正態假定下,可用似然比(見 假設檢驗)方法檢驗這個假設,所得檢驗統計量正是上表中的 F A= M S A/ M S e,它是自由度為 f Af eF統計量。類似地可檢驗

  在檢驗假設被拒絕後,就有估計效應及對之排序等問題,解決這種問題的工具是線性模型的估計理論以及多重比較的方法。

  上例是一個典型的兩種方式分組的方差分析問題,所謂“兩種方式”即指按品種和肥料兩個因素將試驗數據分成αb組。一般地有多種方式分組問題。上例中涉及的品種等都是特定的,因此模型(3)中的效應看作固定參數,故稱固定效應模型。如果討論“品種對產量的影響”這種抽象形式的問題,這時設想有一個無限品種的集合,試驗中所涉及的α個品種,隻是作為全體品種的代表從品種集合中隨機抽出的,這時模型(3)中效應不能看成一個參數而應看作隨機變量。若所有效應均為隨機變量,則稱隨機效應模型。若模型中兼有固定和隨機兩種效應,則稱混合效應模型。一般,隨機效應模型的方差分析在形式上與固定效應大體一致,但在作F檢驗(見假設檢驗)時有一些差別。

  方差分析的思想也用於回歸分析的假設檢驗。若在方差分析模型中有未加控制的系統性因素出現,則得到協方差分析模型。如上例,根據在生長期間各試驗地塊蟲害的輕重程度,施用不同量的農藥,記X為農藥用量,它可能是影響產量的系統因素,如模型中不加考慮,必將降低分析精度。考慮的方法是在模型(3)中加進一項反映該因素影響的量δXijk),即

式中 X ijk)為第i個品種、第 j種肥料、第 k個重復地塊上的使用農藥量。δ 為待估的回歸系數。上述模型仍是一個線性模型,隻不過模型中有連續取值的回歸變量 X和離散取值的方差變量 AB。因此,協方差分析可看成回歸分析與方差分析的結合。

  

參考書目

 H.cheffe,The Analysis of variance,John Wiley &Sons,New York,1959.