多元統計分析-百科詞條

　　簡稱多元分析。當總體的分佈是多維（多元）概率分佈時，處理該總體的數理統計理論和方法。數理統計學中的一個重要的分支學科。

　　早在19世紀就出現瞭處理二維正態總體（見正態分佈）的一些方法，但系統地處理多維概率分佈總體的統計分析問題，則開始於20世紀。人們常把1928年維夏特分佈的導出作為多元分析成為一個獨立學科的標誌。20世紀30年代，R.A.費希爾、H.霍特林、許寶烾以及S.N.羅伊等人作出瞭一系列奠基性的工作，使多元統計分分析在理論上得到瞭迅速的進展。40年代，多元分析在心理、教育、生物等方面獲得瞭一些應用。由於應用時常需要大量的計算，加上第二次世界大戰的影響，使其發展停滯瞭相當長的時間。50年代中期，隨著電子計算機的發展和普及，它在地質、氣象、標準化、生物、圖像處理、經濟分析等許多領域得到瞭廣泛的應用，也促進瞭理論的發展。

　　多元分析發展的初期，主要討論如何把一元正態總體的統計理論和方法推廣到多元正態總體。多元正態總體的分佈由兩組參數，即均值向量μ（見數學期望）和協方差矩陣（簡稱協差陣）∑（見矩）所決定，記為N_p(μ，∑)(p為分佈的維數，故又稱p維正態分佈或p維正態總體)。設X₁，X₂，…，X_n為來自正態總體N_p(μ，∑)的樣本，則μ和∑的無偏估計（見點估計）分別是

和　

分別稱之為樣本均值向量和樣本協差陣，它們是在各種多元分析問題中常用的統計量。樣本相關陣 R也是一個重要的統計量，它的元素為

其中υ _ij為樣本協差陣 S的元素。 S的分佈是維夏特分佈，它是一元統計中的ⅹ ²分佈的推廣。

　　另一典型問題是：假定兩個多維正態分佈協差陣相同，檢驗其均值向量是否相同。設樣本X₁，X₂，…，X_n抽自正態總體N_p（μ₁，∑），而Y₁，Y₂，…，Y_m抽自N_p（μ₂，∑），要檢驗假設H₀：μ₁=μ₂(見假設檢驗)。在一元統計中使用t統計量（見統計量）作檢驗；在多元分析中則用T²統計量，

，其中

，

， T ²的分佈稱為 T ²分佈。這是H.霍特林在1936年提出來的。

　　在上述問題中的多元與一元相應的統計量是類似的，但並非都是如此。例如，要檢驗k個正態總體的均值是否相等，在一元統計中是導致F統計量，但在多元分析中可導出許多統計量，最著名的有威爾克斯Λ統計量和最大相對特征根統計量。研究這些統計量的精確分佈和優良性是近幾十年來多元統計分析的重要理論課題。

　　多元統計分析有狹義與廣義之分，當假定總體分佈是多元正態分佈時，稱為狹義的，否則稱為廣義的。近年來，狹義多元分析的許多內容已被推廣到更廣的分佈之中，特別是推廣到一種稱為橢球等高分佈族之中。

　　按多元分析所處理的實際問題的性質分類，重要的有如下幾種。

　　多重回歸分析　簡稱回歸分析。其特點是同時處理多個因變量。回歸系數和常數的計算公式與通常的情況相仿，隻是由於因變量不止一個，原來的每個回歸系數在此都成為一個向量。因此，關於回歸系數的檢驗要用T²統計量；對回歸方程的顯著性檢驗要用Λ統計量。

　　回歸分析在地質勘探的應用中發展瞭一種特殊的形式，稱為趨勢面分析，它以各種元素的含量作為因變量，把它們對地理坐標進行回歸（選用一次、二次或高次的多項式），回歸方程稱為趨勢面，反映瞭含量的趨勢。殘差分析是趨勢面分析的重點，找出正的殘差異常大的點，在這些點附近，元素的含量特別高，這就有可能形成可采的礦位。這一方法在其他領域也有應用。

　　判別分析　由k個不同總體的樣本來構造判別函數，利用它來決定新的未知類別的樣品屬於哪一類，這是判別分析所處理的問題。它在醫療診斷、天氣預報、圖像識別等方面有廣泛的應用。例如，為瞭判斷某人是否有心臟病，從健康的人和有心臟病的人這兩個總體中分別抽取樣本，對每人各測兩個指標X₁和X₂，點繪如圖

。可用直線 A將平面分成 g ₁和 g ₂兩部分，落在 g ₁的絕大部分為健康者，落在 g ₂的絕大部分為心臟病人，利用 A的垂線方向

來建立判別函數

，可以求得一常數с，使 y＜с 等價於（ X ₁， X ₂）落在 g ₁， y＞с等價於（ X ₁， X ₂）落在 g ₂。由此得判別規則：若

，判

，即此人為健康者；若

，判

，即此人為心臟病人；若

，則為待判。此例的判別函數是線性函數，它簡單方便，在實際問題中經常使用。但有時也用非線性判別函數，特別是二次判別函數。建立判別函數和判別規則有不少準則和方法，常用的有貝葉斯準則、費希爾準則、距離判別、回歸方法和非參數方法等。

　　無論用哪一種準則或方法所建立的判別函數和判別規則，都可能產生錯判，錯判所占的比率用錯判概率來度量。當總體間區別明顯時，錯判概率較小；否則錯判概率較大。判別函數的選擇直接影響到錯判概率，故錯判概率可用來比較不同方法的優劣。

　　變量（如上例中的X₁和X₂）選擇的好壞是使用判別分析的最重要的問題，常用逐步判別的方法來篩選出一些確有判別作用的變量。利用序貫分析的思想又產生瞭序貫判別分析。例如醫生在診斷時，先確定是否有病，然後確定是哪個系統有病，再確定是什麼性質的病等等。

　　聚類分析　又稱數值分類。聚類分析和判別分析的區別在於，判別分析是已知有多少類和樣本來自哪一類，需要判別新抽取的樣本是來自哪一類；而聚類分析則既不知有幾類，也不知樣本中每一個來自哪一類。例如，為瞭制定服裝標準，對N個成年人，測量每人的身高(x₁)、胸圍(x₂)、肩寬(x₃)、上體長(x₄)、手臂長(x₅)、前胸(x₆)、後背(x₇)、腰圍(x₈)、臀圍(x₉)、下體長(x₁₀)等部位，要將這N個人進行分類，每一類代表一個號型；為瞭使用和裁剪的方便，還要對這些變量(x₁，x₂，…，x₁₀)進行分類。聚類分析就是解決上述兩種分類問題。

　　設已知N個觀測值X₁，X₂，…，X_n，每個觀測值是一個p維向量（如上例中人的身高、胸圍等）。聚類分析的思想是將每個觀測值X_i看成p維空間的一個點，在p維空間中引入“距離”的概念，則可按各點間距離的遠近將各點（觀測值）歸類。若要對p個變量（即指標）進行分類，常定義一種“相似系數”來衡量變量之間的親密程度，按各變量之間相似系數的大小可將變量進行分類。根據實際問題的需要和變量的類型，對距離和相似系數有不同的定義方法。

　　按距離或相似系數分類，有下列方法。①凝聚法：它是先將每個觀察值{X_i}看成一類，逐步歸並，直至全部觀測值並成一類為止，然後將上述並類過程畫成一聚類圖（或稱譜系圖），利用這個圖可方便地得到分類。②分解法：它是先將全部觀測值看成一類，然後逐步將它們分解為2類、3類、…、N類，它是凝聚法的逆過程。③動態聚類法：它是將觀測值先粗糙地分類，然後按適當的目標函數和規定的程序逐步調整，直至不能再調為止。

　　若觀察值X₁，X₂，…，X_n之間的次序在分類時不允許打亂，則稱為有序分類。例如在地質學中將地層進行分類，隻能將互相鄰接的地層分成一類，不能打亂上下的次序。用於這一類問題中的重要方法是費希爾於1958年提出的最優分割法。

　　聚類分析也能用於預報洪水、暴雨、地震等災害性問題，其效果比其他統計方法好。但它在理論上還很薄弱，因為它不象其他方法那樣有確切的數學模型。

　　主成分分析　又稱主分量分析，是將多個變量通過線性變換以選出較少個數重要變量的一種方法。設原來有p個變量x₁，x₂，…，x_p，為瞭簡化問題，選一個新變量z，

，要求 z盡可能多地反映 p個變量的信息，以此來選擇 l ₁， l ₂，…， l _p，當 l ₁， l ₂，…， l _p選定後，稱 z為 x ₁， x ₂，…， x _p的主成分（或主分量）。有時僅一個主成分不足以代表原來的 p個變量，可用 q(＜ p)個互不相關的呈上述形式的主成分來盡可能多地反映原 p個變量的信息。用來決定諸系數的原則是，在

的約束下，選擇 l ₁， l ₂，…， l _p使 z的方差達到最大。

　　在根據樣本進行主成分分析時又可分為R型分析與Q型分析。前者是用樣本協差陣（或相關陣）的特征向量作為線性函數的系數來求主成分；後者是由樣品之間的內積組成的內積陣來進行類似的處理，其目的是尋找出有代表性的“典型”樣品，這種方法在地質結構的分析中常使用。

　　對應分析　這是70年代地質學傢提出的方法。對非負值指標的樣本資料矩陣作適當的處理後，同時進行R型與Q型的主成分分析，將結果綜合在圖上進行解釋，可以得到指標隨時間、空間位置變化的規律。它的理論正在引起多方面的重視。

　　因子分析　它是由樣本的資料將一組變量

分解為一些公共因子 f與特殊因子 s的線性組合，即有常數矩陣 A使у＝ A f＋ s。公共因子 f的客觀內容有時是明確的，如在心理研究中，根據學生的測驗成績（指標）來分析他的反應快慢、理解深淺（公共因子）；有時則是不明確的。為瞭尋求易於解釋的公共因子，往往對因子軸進行旋轉，旋轉的方法有正交旋轉，斜旋轉，極大變差旋轉等。

　　從樣本協差陣或相關陣求公共因子的方法有廣義最小二乘法、最大似然法與不加權的最小二乘法等。通常在應用中，最方便的是直接利用主成分分析所得的頭幾個主成分，它們往往是對各個指標影響都比較大的公共因子。

　　典型相關分析　它是尋求兩組變量各自的線性函數中相關系數達到最大值的一對，這稱為第一對典型變量，還可以求第二對，第三對，等等，這些成對的變量，彼此是不相關的。各對的相關系數稱為典型相關系數。通過這些典型變量所代表的實際含意，可以找到這兩組變量間的一些內在聯系。典型相關分析雖然30年代已經出現，但至今未能廣泛應用。

　　上述的各種方法可以看成廣義多元分析的內容，在有些方法中，如加上正態性的假定，就可以討論一些更深入的問題，例如線性模型中有關線性假設檢驗的問題，在正態的假定下，就有比較系統的結果。

　　多元分析也可按指標是離散的還是連續的來區分，離散值的多元分析實質上與列聯表分析有很大部分是類似的，甚至是一樣的。

　　非數量指標數量化的理論和方法也是廣義多元分析的一個重要的研究課題。

參考書目

　張堯庭、方開泰著：《多元統計分析引論》，科學出版社，北京，1982。

　T.W.Anderson，An Introduction to Multivariate Statistical Analysis，John Wiley &Sons，New York，1984.