聚類分析-百科詞條

　　在沒有或不用樣本所屬類別資訊的情況下，依據樣本集資料的內在結構，在樣本間相似性度量的基礎上對樣本進行分類的方法。例如給一個幼童看若幹張不同形式汽車和輪船的畫片，教師即使不告訴他哪一張是汽車，哪一張是輪船，他也能自然地把所有畫片分成兩類。這是一種非監督學習方法（見監督學習）。分類的基礎是模式間的相似和不相似關係，這種關係常常用模式特徵向量之間的距離來度量。

　　基本的聚類方法有譜系聚類法(或稱系統聚類法)和動態聚類法。

　　譜系聚類法　

首先把每個模式特征向量各自看成一類，然後選擇一種計算類別之間距離的度量，把類間距離最小的兩類合並成一個新類，計算新類與其他類的距離，再將距離近的兩類合並,這樣每次減少一類,直至所有的模式數據合並成一類為止。用譜系圖（見圖）表示合並的過程，橫坐標的刻度是並類的距離。如果確定一個閾值 T,把類間距離小於閾值的類合並在一起，那麼從譜系圖就可得到模式數據的聚類結果。在圖中，若令 T等於1.5,則 G ₁和 G ₂是一類, G ₃是一類， G ₄是一類， G ₅和 G ₆是一類。用於系統聚類法中的類間距離有最小距離、最大距離、中間距離、重心距離、類平均距離、可變類平均距離、可變距離和離差平方和距離。將 p類、 q類合並成一個新的 k類之後,計算 k類和其他 r類之間的類間距離時，上述八種距離有如下統一的遞推公式：

式中D_kr表示k類和r類之間的距離,D_kp表示k類和p類之間的距離,其餘的按此類推。

, β，γ等系數對於不同z距離取不同的數值，如下表。表中 n_p為原 p類的樣本數, n_k為新組成的 k類樣本數等。系統聚類法除瞭用來對數據進行聚類外，也可用來設計樹分類器的樹狀結構。

各種類間距離的α_p、α_q、β、γ值

　　動態聚類法　這是一種迭代使用最小距離分類原則（見最小距離分類）的聚類算法。假定總的類別數是已知的，且先給定每一個類的初始代表樣本(稱為類中心)。所有樣本按照其特征向量離哪一個類中心的特征向量最近就把它分到哪一類。在全部樣本分完以後，計算屬於同一類樣本的平均特征向量並將它作為該類的新的類中心特征向量。再按照最小距離分類原則對所有樣本進行新的分類。如此反復進行計算，直到所有樣本所屬類別不再變化為止。在類別總數未知的情況下，先設定一個類別總數，然後按上述方法進行聚類計算。但在每次對所有樣本分類後，把類中心特征向量過分接近的兩類合並成一類，而把按類計算的樣本數據方差超過某一規定閾值的類分開成兩類。這樣經過合並或分開後，再重新計算類中心和對所有樣本進行新的分類。如此反復進行，直到分類情況不再變化，或者迭代次數達到預先給定的次數為止,這就是聚類分析中的ISODATA算法。理論上可以證明，不論初始類中心如何選擇，動態聚類算法總是可以收斂的。在更復雜的情況下，代表類別的類中心不是類的平均特征向量，而是具有某一特定形狀的、由若幹樣本組成的核。

參考書目

　M.R.Anderberg， Cluster Analysis for Applications，Academic Press,New York, 1973.