在沒有或不用樣本所屬類別資訊的情況下,依據樣本集資料的內在結構,在樣本間相似性度量的基礎上對樣本進行分類的方法。例如給一個幼童看若幹張不同形式汽車和輪船的畫片,教師即使不告訴他哪一張是汽車,哪一張是輪船,他也能自然地把所有畫片分成兩類。這是一種非監督學習方法(見監督學習)。分類的基礎是模式間的相似和不相似關係,這種關係常常用模式特徵向量之間的距離來度量。
基本的聚類方法有譜系聚類法(或稱系統聚類法)和動態聚類法。
譜系聚類法
![](/img3/47501.jpg)
![](/img3/47502.gif)
式中Dkr表示k類和r類之間的距離,Dkp表示k類和p類之間的距離,其餘的按此類推。
![](/img3/47503.gif)
![](/img3/47504.jpg)
動態聚類法 這是一種迭代使用最小距離分類原則(見最小距離分類)的聚類算法。假定總的類別數是已知的,且先給定每一個類的初始代表樣本(稱為類中心)。所有樣本按照其特征向量離哪一個類中心的特征向量最近就把它分到哪一類。在全部樣本分完以後,計算屬於同一類樣本的平均特征向量並將它作為該類的新的類中心特征向量。再按照最小距離分類原則對所有樣本進行新的分類。如此反復進行計算,直到所有樣本所屬類別不再變化為止。在類別總數未知的情況下,先設定一個類別總數,然後按上述方法進行聚類計算。但在每次對所有樣本分類後,把類中心特征向量過分接近的兩類合並成一類,而把按類計算的樣本數據方差超過某一規定閾值的類分開成兩類。這樣經過合並或分開後,再重新計算類中心和對所有樣本進行新的分類。如此反復進行,直到分類情況不再變化,或者迭代次數達到預先給定的次數為止,這就是聚類分析中的ISODATA算法。理論上可以證明,不論初始類中心如何選擇,動態聚類算法總是可以收斂的。在更復雜的情況下,代表類別的類中心不是類的平均特征向量,而是具有某一特定形狀的、由若幹樣本組成的核。
參考書目
M.R.Anderberg, Cluster Analysis for Applications,Academic Press,New York, 1973.