研究隨機變數之間的“相關關係”的一種統計方法。相關關係是一種非確定性的關係,例如,以xY分別記一個人的身高和體重,或分別記每畝施肥量與每畝小麥產量,則xY顯然有關係,而又沒有確切到可由其中的一個去精確地決定另一個的程度,這就是相關關係。當兩變數x<Y有相關關系時,雖然知道瞭x之值x不足以決定Y之值,但可以決定Y的條件分佈(見條件期望)Yx=x。反之,也可由Y之值y決定x的條件分佈xY=y。這種依賴關系正是相關關系的實質所在。

  相關分析與回歸分析在實際應用中有密切關系。然而在回歸分析中,所關心的是一個隨機變量Y對另一個(或一組)隨機變量x的依賴關系的函數形式。用預測的語言說,x是預測因子,Y是預測對象,故xY的地位不是平等的。而在相關分析中,所討論的變量的地位一樣,分析側重於隨機變量之間的種種相關特征。例如,以xY分別記小學生的數學與語文成績,感興趣的是二者的關系如何,而不在於由x去預測Y

  相關系數 完整描述相關關系的是條件分佈Yx=xxY=y,但在使用上不方便。實用中常用相關系數(見概率分佈)ρXY來描述xY之間的相關關系,其定義是ρXY=cov(xY)/(varx·varY)1/2。當ρXY>0(<0)時,稱xY有正(負)相關。ρXY有以下性質。①|ρXY|≤1。②當xY有嚴格線性關系αx+bY=с時,ρXY=1或-1,視αb<0或αb>0而定。③若xY相互獨立,則ρXY=0;但當ρXY=0時,xY不一定相互獨立。隻有當(xY)服從二維正態分佈時,才可由ρXY=0推出xY獨立。當ρXY=0時,稱xY不相關。相關系數隻是xY之間線性關系密切程度的指標,因此常稱ρXY為線性相關系數,而稱基於它所作的相關分析為線性相關分析。

  相關分析的主要任務是由xY的一組觀測值(xiYi),i=1,2,…,n,估計ρXY及檢驗有關ρXY的假設(見假設檢驗),特別是H0:ρXY=0。在統計上,稱

為樣本相關系數,並用以估計ρ XY。R.A.費希爾於1915年,在( xY)的總體分佈為二維正態分佈的情況下,求得瞭 r的抽樣分佈,由此可以對ρ XY=0的假設進行檢驗。費希爾的這項工作是相關分析的一項重大發展,可以說它標志瞭相關分析這一統計方法的建立。

  復相關 上述相關系數隻涉及兩個變量xY。若有多個變量x1x2,…,xk,則可考慮其中之一(如x1)與其餘變量(x2x3,…,xk)的相關,基本指標是x1對(x2x3,…,xk)的復相關系數R。任取常數α2α3,…,αk,計算x1

的相關系數,變動 α 2α 3,…, α k的數值使相關系數達到極大,這個極大值就是 R。計算方法如下:記 Λ為以 為元素的矩陣的行列式, Λ ijr ij的餘子式,則

  偏相關 這也是相關分析中的一個重要概念。設xY和Z分別記同一個人每月的基本開支、文娛開支及其工資收入。經過分析,會發現xY之間有高度的正相關,究其原因,是由於xY同時受Z的影響;若把Z對二者的影響清除,則剩餘部分的相關程度會有不同,甚至會變成負相關。後者就是xY相對於 Z的偏相關。它可用偏相關系數來度量,一般,設有變量x1x2,…,xk,則在前述符號下,x1x2相對於(x3x4,…,xk)的偏相關系數是

  有時,需要考慮一組變量與另一組變量的關系,為此引進瞭典型相關系數,相應的方法稱為典型相關分析,這種相關性的研究屬於多元統計分析的范圍。

  

參考書目

 C.R.Rao,Linear Statistical Inference and Its Application,2nd ed.,John Wiley &Sons,New York,1973.