1. 簡述K-means演算法的基本過程及其不足。《數據挖掘》作業題追分100
過程:
1、 從 n個數據對象任意選擇 k 個對象作為初始聚類中心;
2、 根據每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的距離;並根據最小距離重新對相應對象進行劃分;
3、 重新計算每個(有變化)聚類的均值(中心對象)
4、循環步驟2和3,直到每個聚類不再發生變化為止
缺點:
1、聚類個數K需要自己決定,因此在不知道具體有多少類時需要從2開始多次嘗試,選擇最好的
2、當k確定時,聚類效果和初始中心選擇有關,所以演算法很不穩定
3、演算法在維數較多時,由於需要多次迭代,花費時間較長
2. kmeans聚類演算法是什麼
K-means演算法是最為經典的基於劃分的聚類方法,是十大經典數據挖掘演算法之一。K-means演算法的基本思想是:以空間中k個點為中心進行聚類,對最靠近他們的對象歸類。通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結果。
聚類屬於無監督學習,以往的回歸、樸素貝葉斯、SVM等都是有類別標簽y的,也就是說樣例中已經給出了樣例的分類。而聚類的樣本中卻沒有給定y,只有特徵x,比如假設宇宙中的星星可以表示成三維空間中的點集。
(2)數據挖掘k中心點演算法擴展閱讀:
k個聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個「中心對象」(引力中心)來進行計算的。
(1)適當選擇c個類的初始中心;
(2)在第k次迭代中,對任意一個樣本,求其到c個中心的距離,將該樣本歸到距離最短的中心所在的類;
(3)利用均值等方法更新該類的中心值;
(4)對於所有的c個聚類中心,如果利用(2)(3)的迭代法更新後,值保持不變,則迭代結束,否則繼續迭代。