相關分析-百科詞條

　　研究隨機變數之間的“相關關係”的一種統計方法。相關關係是一種非確定性的關係，例如，以x和Y分別記一個人的身高和體重，或分別記每畝施肥量與每畝小麥產量，則x與Y顯然有關係，而又沒有確切到可由其中的一個去精確地決定另一個的程度，這就是相關關係。當兩變數x和<Y有相關關系時，雖然知道瞭x之值x不足以決定Y之值，但可以決定Y的條件分佈(見條件期望)Y│x=x。反之，也可由Y之值y決定x的條件分佈x│Y=y。這種依賴關系正是相關關系的實質所在。

　　相關分析與回歸分析在實際應用中有密切關系。然而在回歸分析中，所關心的是一個隨機變量Y對另一個（或一組）隨機變量x的依賴關系的函數形式。用預測的語言說，x是預測因子，Y是預測對象，故x、Y的地位不是平等的。而在相關分析中，所討論的變量的地位一樣，分析側重於隨機變量之間的種種相關特征。例如，以x、Y分別記小學生的數學與語文成績，感興趣的是二者的關系如何，而不在於由x去預測Y。

　　相關系數　完整描述相關關系的是條件分佈Y│x=x和x│Y=y，但在使用上不方便。實用中常用相關系數(見概率分佈)ρ_XY來描述x、Y之間的相關關系，其定義是ρ_XY=cov(x，Y)/(varx·varY)^1/2。當ρ_XY＞0(＜0)時，稱x、Y有正（負）相關。ρ_XY有以下性質。①｜ρ_XY｜≤1。②當x、Y有嚴格線性關系αx+bY=с時，ρ_XY=1或－1，視αb＜0或αb＞0而定。③若x、Y相互獨立，則ρ_XY=0；但當ρ_XY=0時，x與Y不一定相互獨立。隻有當(x，Y)服從二維正態分佈時，才可由ρ_XY=0推出x、Y獨立。當ρ_XY=0時，稱x、Y不相關。相關系數隻是x、Y之間線性關系密切程度的指標，因此常稱ρ_XY為線性相關系數，而稱基於它所作的相關分析為線性相關分析。

　　相關分析的主要任務是由x、Y的一組觀測值(x_i，Y_i)，i=1，2，…，n，估計ρ_XY及檢驗有關ρ_XY的假設（見假設檢驗），特別是H₀：ρ_XY=0。在統計上，稱

為樣本相關系數，並用以估計ρ _XY。R.A.費希爾於1915年，在( x， Y)的總體分佈為二維正態分佈的情況下，求得瞭 r的抽樣分佈，由此可以對ρ _XY=0的假設進行檢驗。費希爾的這項工作是相關分析的一項重大發展，可以說它標志瞭相關分析這一統計方法的建立。

　　復相關　上述相關系數隻涉及兩個變量x、Y。若有多個變量x₁，x₂，…，x_k，則可考慮其中之一(如x₁)與其餘變量(x₂，x₃，…，x_k)的相關，基本指標是x₁對(x₂，x₃，…，x_k)的復相關系數R。任取常數α₂，α₃，…，α_k，計算x₁與

的相關系數，變動 α ₂， α ₃，…， α _k的數值使相關系數達到極大，這個極大值就是 R。計算方法如下：記 Λ為以

為元素的矩陣的行列式， Λ _ij為 r _ij的餘子式，則

。

　　偏相關　這也是相關分析中的一個重要概念。設x、Y和Z分別記同一個人每月的基本開支、文娛開支及其工資收入。經過分析，會發現x、Y之間有高度的正相關，究其原因，是由於x、Y同時受Z的影響；若把Z對二者的影響清除，則剩餘部分的相關程度會有不同，甚至會變成負相關。後者就是x、Y相對於 Z的偏相關。它可用偏相關系數來度量，一般，設有變量x₁，x₂，…，x_k，則在前述符號下，x₁與x₂相對於(x₃，x₄，…，x_k)的偏相關系數是

　　有時，需要考慮一組變量與另一組變量的關系，為此引進瞭典型相關系數，相應的方法稱為典型相關分析，這種相關性的研究屬於多元統計分析的范圍。

參考書目

　C.R.Rao，Linear Statistical Inference and Its Application，2nd ed.，John Wiley &Sons，New York，1973.