分析實驗資料的一種重要的數理統計學方法。其要旨是對樣本觀測值的總變差平方和進行適當的分解,以判明實驗中各因素影響的有無及其大小。這是由R.A.費希爾1923年首創的。設Y1,Y2,…,Yn為n個觀測值,
![](/img3/4366.gif)
為平均值,稱
![](/img3/4367.gif)
為
Y
1,
Y
2,…,
Y
n的變差平方和,簡稱總平方和,它反映觀測值在平均值上下波動的大小。當觀測值受到多種因素的影響時,每一因素都對平方和的值有影響,若能從平方和中分解出反映某一因素影響的那一部分(也用平方和的形式表示),則由這部分的大小就可以推斷該因素的影響是否顯著。但是,若試驗未經適當的設計,則所產生的數據難以進行平方和分解與相應的統計推斷。因此方差分析和
實驗設計法是密切相關的,不同的實驗設計相應於不同的方差分析形式,而方差分析理論對實驗設計的選擇又有指導作用。例如,進行一項作物品種與肥料的農業試驗,品種和肥料就是所考慮的兩個不同的因素,而各因素的不同取“值”,稱為該因素的水平。假定有
α個品種
A
1、…、
Aα與
b種肥料
B
1、…、
B
b供選取,在水平
A
i和
B
j的組合條件下的試驗稱為一個處理。在這試驗中,全部可能的處理數目共有
α
b個,即為因素
A(品種)與因素
B(肥料)的各自水平數的乘積。設每個處理種
r塊試驗田,以
Y
ijk)記用第i個品種、第
j種肥料在第
k個重復試驗的地塊上所得試驗的畝產量,對不同的(i,
j,
k),
Y
ijk)之值各不相同,它的總變差平方和為
![](/img3/4369.gif)
(
![](/img3/4366.gif)
是全部
Y
ijk)的平均值),它反映瞭品種、肥料以及隨機誤差(它包含土壤的不均勻性等大量的不可控因素)的影響,通常又稱總平方和。在這種兩因素試驗情況下總平方和可以分解為四部分
![](/img3/4370.gif)
, (1)
式中
(
Y
ijk)-
Y
ij.)
2,而
Y
![](/img3/4373.gif)
為固定i對一切
j、
k求
Y
ijk)的平均值,
Y.
j.與
Y
ij.有類似的含義。
SS
A和
SS
B分別反映因素
A和
B各自對
SS
T的貢獻,分別稱為因素
A和
B的主效應平方和。
SS
AB反映由因素
A、
B的相互影響而對
SS
T的貢獻,稱為
A、
B的交互效應平方和。
SS
e反映隨機誤差的影響,通常稱誤差平方和。每項平方和都對應著一個“自由度”,就上例而言,
SS
A、
SS
B、
SS
AB、
SS
e的自由度分別為
α-1、
b-1、(
α-1)(
b-1)和
α
b(
r-1)。分別記之為
f
A、
f
A、
f
e和
f
e。總平方和
SS
T的自由度
f
T定義為總的觀測次數減去1,即
α
b
r-1,它恰好是
f
A、
f
A、
f
e和
f
e之和,即有類似於(1)的分解式
![](/img3/4374.gif)
(2)
平方和除以各自的自由度稱為均方,記為
M
S,例如
S
S
A/(α-1),等等。諸因素效應的大小,用它的均方與誤差均方的比值(記為
F)的大小來衡量,例如,
F
A=
M
S
A/
M
S
e,反映因素
A的主效應對畝產的影響;
F
B=
M
S
B/
M
S
e反映因素
B的主效應對畝產的影響;
方差分析表
![](/img3/4377.gif)
則反映
A與
B交互效應對畝產的影響。綜上結果,可以列成一個方差分析表(表
方差分析表
![](/img3/4378.jpg)
)。
前述例子的模型可寫為
Yijk)=μ+αi+βj+γij+εijk), (3)
式中i=1,…,
α;
j=1,…,
b;
k=1,…,
r;
μ稱總平均;
α
i、
β
j分別稱品種(
A)與肥料(
B)的主效應,γ
ij稱
A、
B的交互效應,並且滿足約束條件:
![](/img3/4380.gif)
。ε
ijk)是隨機誤差。這是一個以
μ、
α
i、
β
j及γ
ij(i=1,…,
α;
j=1,…,
b)為參數的線性模型(見
線性統計模型)。“品種無主效應”這個假設,可表為
H
A:
α
i=0,i=1,…,
α,這是一個線性假設。在隨機誤差ε
ijk)獨立、等方差及正態假定下,可用似然比(見
假設檢驗)方法檢驗這個假設,所得檢驗統計量正是上表中的
F
A=
M
S
A/
M
S
e,它是自由度為
f
A與
f
e的
F統計量。類似地可檢驗
![](/img3/4381.gif)
和
在檢驗假設被拒絕後,就有估計效應及對之排序等問題,解決這種問題的工具是線性模型的估計理論以及多重比較的方法。
上例是一個典型的兩種方式分組的方差分析問題,所謂“兩種方式”即指按品種和肥料兩個因素將試驗數據分成αb組。一般地有多種方式分組問題。上例中涉及的品種等都是特定的,因此模型(3)中的效應看作固定參數,故稱固定效應模型。如果討論“品種對產量的影響”這種抽象形式的問題,這時設想有一個無限品種的集合,試驗中所涉及的α個品種,隻是作為全體品種的代表從品種集合中隨機抽出的,這時模型(3)中效應不能看成一個參數而應看作隨機變量。若所有效應均為隨機變量,則稱隨機效應模型。若模型中兼有固定和隨機兩種效應,則稱混合效應模型。一般,隨機效應模型的方差分析在形式上與固定效應大體一致,但在作F檢驗(見假設檢驗)時有一些差別。
方差分析的思想也用於回歸分析的假設檢驗。若在方差分析模型中有未加控制的系統性因素出現,則得到協方差分析模型。如上例,根據在生長期間各試驗地塊蟲害的輕重程度,施用不同量的農藥,記X為農藥用量,它可能是影響產量的系統因素,如模型中不加考慮,必將降低分析精度。考慮的方法是在模型(3)中加進一項反映該因素影響的量δXijk),即
![](/img3/4383.gif)
,
式中
X
ijk)為第i個品種、第
j種肥料、第
k個重復地塊上的使用農藥量。δ 為待估的回歸系數。上述模型仍是一個線性模型,隻不過模型中有連續取值的回歸變量
X和離散取值的方差變量
A和
B。因此,協方差分析可看成回歸分析與方差分析的結合。
參考書目
H.cheffe,The Analysis of variance,John Wiley &Sons,New York,1959.