類聚演算法_kmeans聚類演算法是什麼

1. 四種聚類方法之比較

四種聚類方法之比較
介紹了較為常見的k-means、層次聚類、SOM、FCM等四種聚類演算法，闡述了各自的原理和使用步驟，利用國際通用測試數據集IRIS對這些演算法進行了驗證和比較。結果顯示對該測試類型數據，FCM和k-means都具有較高的准確度，層次聚類准確度最差，而SOM則耗時最長。
關鍵詞:聚類演算法；k-means；層次聚類；SOM；FCM
聚類分析是一種重要的人類行為，早在孩提時代，一個人就通過不斷改進下意識中的聚類模式來學會如何區分貓狗、動物植物。目前在許多領域都得到了廣泛的研究和成功的應用，如用於模式識別、數據分析、圖像處理、市場研究、客戶分割、Web文檔分類等[1]。
聚類就是按照某個特定標准(如距離准則)把一個數據集分割成不同的類或簇，使得同一個簇內的數據對象的相似性盡可能大，同時不在同一個簇中的數據對象的差異性也盡可能地大。即聚類後同一類的數據盡可能聚集到一起，不同數據盡量分離。
聚類技術[2]正在蓬勃發展，對此有貢獻的研究領域包括數據挖掘、統計學、機器學習、空間資料庫技術、生物學以及市場營銷等。各種聚類方法也被不斷提出和改進，而不同的方法適合於不同類型的數據，因此對各種聚類方法、聚類效果的比較成為值得研究的課題。
1 聚類演算法的分類
目前，有大量的聚類演算法[3]。而對於具體應用，聚類演算法的選擇取決於數據的類型、聚類的目的。如果聚類分析被用作描述或探查的工具，可以對同樣的數據嘗試多種演算法，以發現數據可能揭示的結果。
主要的聚類演算法可以劃分為如下幾類：劃分方法、層次方法、基於密度的方法、基於網格的方法以及基於模型的方法[4-6]。
每一類中都存在著得到廣泛應用的演算法，例如：劃分方法中的k-means[7]聚類演算法、層次方法中的凝聚型層次聚類演算法[8]、基於模型方法中的神經網路[9]聚類演算法等。
目前,聚類問題的研究不僅僅局限於上述的硬聚類，即每一個數據只能被歸為一類，模糊聚類[10]也是聚類分析中研究較為廣泛的一個分支。模糊聚類通過隸屬函數來確定每個數據隸屬於各個簇的程度，而不是將一個數據對象硬性地歸類到某一簇中。目前已有很多關於模糊聚類的演算法被提出，如著名的FCM演算法等。
本文主要對k-means聚類演算法、凝聚型層次聚類演算法、神經網路聚類演算法之SOM,以及模糊聚類的FCM演算法通過通用測試數據集進行聚類效果的比較和分析。
2 四種常用聚類演算法研究
2.1 k-means聚類演算法
k-means是劃分方法中較經典的聚類演算法之一。由於該演算法的效率高，所以在對大規模數據進行聚類時被廣泛應用。目前，許多演算法均圍繞著該演算法進行擴展和改進。
k-means演算法以k為參數，把n個對象分成k個簇，使簇內具有較高的相似度，而簇間的相似度較低。k-means演算法的處理過程如下：首先，隨機地選擇k個對象，每個對象初始地代表了一個簇的平均值或中心;對剩餘的每個對象，根據其與各簇中心的距離，將它賦給最近的簇;然後重新計算每個簇的平均值。這個過程不斷重復，直到准則函數收斂。通常，採用平方誤差准則，其定義如下：

這里E是資料庫中所有對象的平方誤差的總和，p是空間中的點，mi是簇Ci的平均值[9]。該目標函數使生成的簇盡可能緊湊獨立，使用的距離度量是歐幾里得距離,當然也可以用其他距離度量。k-means聚類演算法的演算法流程如下：
輸入：包含n個對象的資料庫和簇的數目k；
輸出：k個簇，使平方誤差准則最小。
步驟：
(1) 任意選擇k個對象作為初始的簇中心；
(2) repeat；
(3) 根據簇中對象的平均值，將每個對象(重新)賦予最類似的簇；
(4) 更新簇的平均值，即計算每個簇中對象的平均值；
(5) until不再發生變化。
2.2 層次聚類演算法
根據層次分解的順序是自底向上的還是自上向下的，層次聚類演算法分為凝聚的層次聚類演算法和分裂的層次聚類演算法。
凝聚型層次聚類的策略是先將每個對象作為一個簇，然後合並這些原子簇為越來越大的簇，直到所有對象都在一個簇中，或者某個終結條件被滿足。絕大多數層次聚類屬於凝聚型層次聚類，它們只是在簇間相似度的定義上有所不同。四種廣泛採用的簇間距離度量方法如下：

這里給出採用最小距離的凝聚層次聚類演算法流程：
(1) 將每個對象看作一類，計算兩兩之間的最小距離；
(2) 將距離最小的兩個類合並成一個新類；
(3) 重新計算新類與所有類之間的距離；
(4) 重復(2)、(3)，直到所有類最後合並成一類。
2.3 SOM聚類演算法
SOM神經網路[11]是由芬蘭神經網路專家Kohonen教授提出的，該演算法假設在輸入對象中存在一些拓撲結構或順序，可以實現從輸入空間(n維)到輸出平面(2維)的降維映射，其映射具有拓撲特徵保持性質,與實際的大腦處理有很強的理論聯系。
SOM網路包含輸入層和輸出層。輸入層對應一個高維的輸入向量，輸出層由一系列組織在2維網格上的有序節點構成，輸入節點與輸出節點通過權重向量連接。學習過程中，找到與之距離最短的輸出層單元，即獲勝單元，對其更新。同時，將鄰近區域的權值更新，使輸出節點保持輸入向量的拓撲特徵。
演算法流程：
(1) 網路初始化，對輸出層每個節點權重賦初值；
(2) 將輸入樣本中隨機選取輸入向量，找到與輸入向量距離最小的權重向量；
(3) 定義獲勝單元，在獲勝單元的鄰近區域調整權重使其向輸入向量靠攏；
(4) 提供新樣本、進行訓練；
(5) 收縮鄰域半徑、減小學習率、重復，直到小於允許值，輸出聚類結果。
2.4 FCM聚類演算法
1965年美國加州大學柏克萊分校的扎德教授第一次提出了『集合』的概念。經過十多年的發展，模糊集合理論漸漸被應用到各個實際應用方面。為克服非此即彼的分類缺點，出現了以模糊集合論為數學基礎的聚類分析。用模糊數學的方法進行聚類分析，就是模糊聚類分析[12]。
FCM演算法是一種以隸屬度來確定每個數據點屬於某個聚類程度的演算法。該聚類演算法是傳統硬聚類演算法的一種改進。

演算法流程：
(1) 標准化數據矩陣；
(2) 建立模糊相似矩陣，初始化隸屬矩陣；
(3) 演算法開始迭代，直到目標函數收斂到極小值；
(4) 根據迭代結果，由最後的隸屬矩陣確定數據所屬的類，顯示最後的聚類結果。
3 四種聚類演算法試驗
3.1 試驗數據
實驗中，選取專門用於測試分類、聚類演算法的國際通用的UCI資料庫中的IRIS[13]數據集，IRIS數據集包含150個樣本數據，分別取自三種不同的鶯尾屬植物setosa、versicolor和virginica的花朵樣本,每個數據含有4個屬性，即萼片長度、萼片寬度、花瓣長度，單位為cm。在數據集上執行不同的聚類演算法，可以得到不同精度的聚類結果。
3.2 試驗結果說明
文中基於前面所述各演算法原理及演算法流程，用matlab進行編程運算，得到表1所示聚類結果。

如表1所示，對於四種聚類演算法，按三方面進行比較：(1)聚錯樣本數：總的聚錯的樣本數，即各類中聚錯的樣本數的和；(2)運行時間：即聚類整個過程所耗費的時間，單位為s；(3)平均准確度：設原數據集有k個類,用ci表示第i類，ni為ci中樣本的個數，mi為聚類正確的個數,則mi/ni為第i類中的精度，則平均精度為：

3.3 試驗結果分析
四種聚類演算法中，在運行時間及准確度方面綜合考慮，k-means和FCM相對優於其他。但是，各個演算法還是存在固定缺點：k-means聚類演算法的初始點選擇不穩定，是隨機選取的，這就引起聚類結果的不穩定，本實驗中雖是經過多次實驗取的平均值，但是具體初始點的選擇方法還需進一步研究；層次聚類雖然不需要確定分類數，但是一旦一個分裂或者合並被執行，就不能修正，聚類質量受限制；FCM對初始聚類中心敏感，需要人為確定聚類數，容易陷入局部最優解；SOM與實際大腦處理有很強的理論聯系。但是處理時間較長，需要進一步研究使其適應大型資料庫。
聚類分析因其在許多領域的成功應用而展現出誘人的應用前景，除經典聚類演算法外，各種新的聚類方法正被不斷被提出。

2. 常用的聚類方法有哪幾種

聚類分析的演算法可以分為劃分法、層次法、基於密度的方法、基於網格的方法、基於模型的方法。

1、劃分法，給定一個有N個元組或者紀錄的數據集，分裂法將構造K個分組，每一個分組就代表一個聚類，K<N。

2、層次法，這種方法對給定的數據集進行層次似的分解，直到某種條件滿足為止。

3、基於密度的方法，基於密度的方法與其它方法的一個根本區別是：它不是基於各種各樣的距離的，而是基於密度的。這樣就能克服基於距離的演算法只能發現「類圓形」的聚類的缺點。

4、圖論聚類方法解決的第一步是建立與問題相適應的圖，圖的節點對應於被分析數據的最小單元，圖的邊（或弧）對應於最小處理單元數據之間的相似性度量。

5、基於網格的方法，這種方法首先將數據空間劃分成為有限個單元的網格結構,所有的處理都是以單個的單元為對象的。

6、基於模型的方法，基於模型的方法給每一個聚類假定一個模型，然後去尋找能夠很好的滿足這個模型的數據集。

(2)類聚演算法擴展閱讀：

在商業上，聚類可以幫助市場分析人員從消費者資料庫中區分出不同的消費群體來，並且概括出每一類消費者的消費模式或者說習慣。

它作為數據挖掘中的一個模塊，可以作為一個單獨的工具以發現資料庫中分布的一些深層的信息，並且概括出每一類的特點，或者把注意力放在某一個特定的類上以作進一步的分析；並且，聚類分析也可以作為數據挖掘演算法中其他分析演算法的一個預處理步驟。

許多聚類演算法在小於 200 個數據對象的小數據集合上工作得很好；但是，一個大規模資料庫可能包含幾百萬個對象，在這樣的大數據集合樣本上進行聚類可能會導致有偏的結果。

許多聚類演算法在聚類分析中要求用戶輸入一定的參數，例如希望產生的簇的數目。聚類結果對於輸入參數十分敏感。參數通常很難確定，特別是對於包含高維對象的數據集來說。這樣不僅加重了用戶的負擔，也使得聚類的質量難以控制。

3. 聚類演算法的演算法分類

很難對聚類方法提出一個簡潔的分類，因為這些類別可能重疊，從而使得一種方法具有幾類的特徵，盡管如此，對於各種不同的聚類方法提供一個相對有組織的描述依然是有用的，為聚類分析計算方法主要有如下幾種：劃分法(partitioning methods)，給定一個有N個元組或者紀錄的數據集，分裂法將構造K個分組，每一個分組就代表一個聚類，K<N。而且這K個分組滿足下列條件：
（1）每一個分組至少包含一個數據紀錄；
（2）每一個數據紀錄屬於且僅屬於一個分組（注意：這個要求在某些模糊聚類演算法中可以放寬）；
對於給定的K，演算法首先給出一個初始的分組方法，以後通過反復迭代的方法改變分組，使得每一次改進之後的分組方案都較前一次好，而所謂好的標准就是：同一分組中的記錄越近越好，而不同分組中的紀錄越遠越好。
大部分劃分方法是基於距離的。給定要構建的分區數k，劃分方法首先創建一個初始化劃分。然後，它採用一種迭代的重定位技術，通過把對象從一個組移動到另一個組來進行劃分。一個好的劃分的一般准備是：同一個簇中的對象盡可能相互接近或相關，而不同的簇中的對象盡可能遠離或不同。還有許多評判劃分質量的其他准則。傳統的劃分方法可以擴展到子空間聚類，而不是搜索整個數據空間。當存在很多屬性並且數據稀疏時，這是有用的。為了達到全局最優，基於劃分的聚類可能需要窮舉所有可能的劃分，計算量極大。實際上，大多數應用都採用了流行的啟發式方法，如k-均值和k-中心演算法，漸近的提高聚類質量，逼近局部最優解。這些啟發式聚類方法很適合發現中小規模的資料庫中小規模的資料庫中的球狀簇。為了發現具有復雜形狀的簇和對超大型數據集進行聚類，需要進一步擴展基於劃分的方法。
使用這個基本思想的演算法有：K-MEANS演算法、K-MEDOIDS演算法、CLARANS演算法；層次法(hierarchical methods)，這種方法對給定的數據集進行層次似的分解，直到某種條件滿足為止。具體又可分為「自底向上」和「自頂向下」兩種方案。
例如，在「自底向上」方案中，初始時每一個數據紀錄都組成一個單獨的組，在接下來的迭代中，它把那些相互鄰近的組合並成一個組，直到所有的記錄組成一個分組或者某個條件滿足為止。
層次聚類方法可以是基於距離的或基於密度或連通性的。層次聚類方法的一些擴展也考慮了子空間聚類。層次方法的缺陷在於，一旦一個步驟（合並或分裂）完成，它就不能被撤銷。這個嚴格規定是有用的，因為不用擔心不同選擇的組合數目，它將產生較小的計算開銷。然而這種技術不能更正錯誤的決定。已經提出了一些提高層次聚類質量的方法。
代表演算法有：BIRCH演算法、CURE演算法、CHAMELEON演算法等；基於密度的方法(density-based methods)，基於密度的方法與其它方法的一個根本區別是：它不是基於各種各樣的距離的，而是基於密度的。這樣就能克服基於距離的演算法只能發現「類圓形」的聚類的缺點。
這個方法的指導思想就是，只要一個區域中的點的密度大過某個閾值，就把它加到與之相近的聚類中去。
代表演算法有：DBSCAN演算法、OPTICS演算法、DENCLUE演算法等；基於網格的方法(grid-based methods)，這種方法首先將數據空間劃分成為有限個單元（cell）的網格結構,所有的處理都是以單個的單元為對象的。這么處理的一個突出的優點就是處理速度很快，通常這是與目標資料庫中記錄的個數無關的，它只與把數據空間分為多少個單元有關。
代表演算法有：STING演算法、CLIQUE演算法、WAVE-CLUSTER演算法；基於模型的方法(model-based methods)，基於模型的方法給每一個聚類假定一個模型，然後去尋找能夠很好的滿足這個模型的數據集。這樣一個模型可能是數據點在空間中的密度分布函數或者其它。它的一個潛在的假定就是：目標數據集是由一系列的概率分布所決定的。
通常有兩種嘗試方向：統計的方案和神經網路的方案。

4. kmeans聚類演算法是什麼

K-means演算法是最為經典的基於劃分的聚類方法，是十大經典數據挖掘演算法之一。K-means演算法的基本思想是：以空間中k個點為中心進行聚類，對最靠近他們的對象歸類。通過迭代的方法，逐次更新各聚類中心的值，直至得到最好的聚類結果。

聚類屬於無監督學習，以往的回歸、樸素貝葉斯、SVM等都是有類別標簽y的，也就是說樣例中已經給出了樣例的分類。而聚類的樣本中卻沒有給定y，只有特徵x，比如假設宇宙中的星星可以表示成三維空間中的點集。

(4)類聚演算法擴展閱讀：

k個聚類以便使得所獲得的聚類滿足：同一聚類中的對象相似度較高；而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個「中心對象」（引力中心）來進行計算的。

（1）適當選擇c個類的初始中心；

（2）在第k次迭代中，對任意一個樣本，求其到c個中心的距離，將該樣本歸到距離最短的中心所在的類；

（3）利用均值等方法更新該類的中心值；

（4）對於所有的c個聚類中心，如果利用（2）（3）的迭代法更新後，值保持不變，則迭代結束，否則繼續迭代。

5. 有哪些常用的聚類演算法

聚類分析計算方法主要有如下幾種：
1. 劃分法(partitioning methods)
給定一個有N個元組或者紀錄的數據集，分裂法將構造K個分組，每一個分組就代表一個聚類，K<N。而且這K個分組滿足下列條件：（1）每一個分組至少包含一個數據紀錄；（2）每一個數據紀錄屬於且僅屬於一個分組（注意：這個要求在某些模糊聚類演算法中可以放寬）；對於給定的K，演算法首先給出一個初始的分組方法，以後通過反復迭代的方法改變分組，使得每一次改進之後的分組方案都較前一次好，而所謂好的標准就是：同一分組中的記錄越近越好，而不同分組中的紀錄越遠越好。使用這個基本思想的演算法有：K-MEANS演算法、K-MEDOIDS演算法、CLARANS演算法；
2. 層次法(hierarchical methods)
這種方法對給定的數據集進行層次似的分解，直到某種條件滿足為止。具體又可分為「自底向上」和「自頂向下」兩種方案。例如在「自底向上」方案中，初始時每一個數據紀錄都組成一個單獨的組，在接下來的迭代中，它把那些相互鄰近的組合並成一個組，直到所有的記錄組成一個分組或者某個條件滿足為止。代表演算法有：BIRCH演算法、CURE演算法、CHAMELEON演算法等；
3. 基於密度的方法(density-based methods)
基於密度的方法與其它方法的一個根本區別是：它不是基於各種各樣的距離的，而是基於密度的。這樣就能克服基於距離的演算法只能發現「類圓形」的聚類的缺點。這個方法的指導思想就是，只要一個區域中的點的密度大過某個閥值，就把它加到與之相近的聚類中去。代表演算法有：DBSCAN演算法、OPTICS演算法、DENCLUE演算法等；
4. 基於網格的方法(grid-based methods)
這種方法首先將數據空間劃分成為有限個單元（cell）的網格結構,所有的處理都是以單個的單元為對象的。這么處理的一個突出的優點就是處理速度很快，通常這是與目標資料庫中記錄的個數無關的，它只與把數據空間分為多少個單元有關。代表演算法有：STING演算法、CLIQUE演算法、WAVE-CLUSTER演算法；
5. 基於模型的方法(model-based methods)
基於模型的方法給每一個聚類假定一個模型，然後去尋找能個很好的滿足這個模型的數據集。這樣一個模型可能是數據點在空間中的密度分布函數或者其它。它的一個潛在的假定就是：目標數據集是由一系列的概率分布所決定的。通常有兩種嘗試方向：統計的方案和神經網路的方案。

6. 幾種主要類聚方法的比較和試驗

引言聚類分析是人類的區分標志之一，從孩提時代開始，一個人就下意識地學會區分動植物，並且不斷改進。這一原理在如今不少領域得到了相應的研究和應用，比如模式識別、數據分析、圖像處理、Web文檔分類等。將物理或抽象對象的集合分成由類似的對象組成的多個類的過程被稱為聚類。由聚類所生成的簇是一組數據對象的集合，這些對象與同一個簇中的對象彼此相似，與其他簇中的對象相異。「物以類聚，人以群分」，在自然科學和社會科學中，存在著大量的分類問題。聚類技術正在蓬勃發展，對此有貢獻的研究領域包括數據挖掘、統計學、機器學習、空間資料庫技術、生物學以及市場營銷等。各種聚類方法也被不斷提出和改進，而不同的方法適合於不同類型的數據，因此對各種聚類方法、聚類效果的比較成為值得研究的課題。 1 聚類演算法的分類現在有很多的聚類演算法，而在實際應用中，正確選擇聚類演算法的則取決於數據的類型、聚類的目的等因素。如果聚類分析被用作描述或探查的工具，可以對同樣的數據嘗試多種演算法，以發現數據可能揭示的結果。已知的聚類演算法可以大致劃分為以下幾類：劃分方法、層次方法、基於密度的方法、基於網格的方法和基於模型的方法。每一個類型的演算法都被廣泛地應用著，例如：劃分方法中的k-means聚類演算法、層次方法中的凝聚型層次聚類演算法、基於模型方法中的神經網路聚類演算法等。聚類問題的研究早已不再局限於上述的硬聚類，即每一個數據只能被歸為一類，模糊聚類也是聚類分析中研究較為廣泛的一個「流派」。模糊聚類通過隸屬函數來確定每個數據隸屬於各個簇的程度，而不是將一個數據對象硬性地歸類到某一簇中。目前已有很多關於模糊聚類的演算法被提出，如FCM演算法。本文主要分析和比較k-means聚類演算法、凝聚型層次聚類演算法、神經網路聚類演算法之SOM,以及模糊聚類的FCM演算法。通過通用測試數據集進行聚類效果的比較和分析。 2 四種常用聚類演算法研究 2.1 k-means聚類演算法 k-means是劃分方法中較經典的聚類演算法之一。該演算法的效率高，使得在對大規模數據進行聚類時廣泛應用。目前，許多演算法均圍繞著該演算法進行擴展和改進。 k-means演算法以k為參數，把n個對象分成k個簇，使簇內具有較高的相似度，而簇間的相似度較低。k-means演算法的處理過程如下：首先，隨機地選擇k個對象，每個對象初始地代表了一個簇的平均值或中心；對剩餘的每個對象，根據其與各簇中心的距離，將它賦給最近的簇；然後重新計算每個簇的平均值。這個過程不斷重復，直到准則函數收斂。通常，採用平方誤差准則，其定義如下：這里E是資料庫中所有對象的平方誤差的總和，p是空間中的點，mi是簇Ci的平均值。該目標函數使生成的簇盡可能緊湊獨立，使用的距離度量是歐幾里得距離，當然也可以用其他距離度量。k-means聚類演算法的演算法流程如下：輸入：包含n個對象的資料庫和簇的數目k；輸出：k個簇，使平方誤差准則最小。步驟：（1）任意選擇k個對象作為初始的簇中心；（2） repeat；（3）根據簇中對象的平均值，將每個對象（重新）賦予最類似的簇；（4）更新簇的平均值，即計算每個簇中對象的平均值；（5） until不再發生變化。 2.2 層次聚類演算法根據層次分解的順序，層次聚類演算法分為凝聚的層次聚類演算法和分裂的層次聚類演算法。凝聚型層次聚類的策略是先將每個對象作為一個簇，然後合並這些原子簇為越來越大的簇，直到所有對象都在一個簇中，或者某個終結條件被滿足。絕大多數層次聚類屬於凝聚型層次聚類，它們只是在簇間相似度的定義上有所不同。四種廣泛採用的簇間距離度量方法如下：這里給出採用最小距離的凝聚層次聚類演算法流程：（1）將每個對象看作一類，計算兩兩之間的最小距離；（2）將距離最小的兩個類合並成一個新類；（3）重新計算新類與所有類之間的距離；（4）重復（2）、（3），直到所有類最後合並成一類。 2.3 SOM聚類演算法 SOM神經網路是由芬蘭神經網路專家Kohonen教授提出的，該演算法假設在輸入對象中存在一些拓撲結構或順序，可以實現從輸入空間（n維）到輸出平面（2維）的降維映射，其映射具有拓撲特徵保持性質，與實際的大腦處理有很強的理論聯系。 SOM網路包含輸入層和輸出層。輸入層對應一個高維的輸入向量，輸出層由一系列組織在2維網格上的有序節點構成，輸入節點與輸出節點通過權重向量連接。學習過程中，找到與之距離最短的輸出層單元，即獲勝單元，對其更新。同時，將鄰近區域的權值更新，使輸出節點保持輸入向量的拓撲特徵。演算法流程：（1）網路初始化，對輸出層每個節點權重賦初值；（2）將輸入樣本中隨機選取輸入向量，找到與輸入向量距離最小的權重向量；（3）定義獲勝單元，在獲勝單元的鄰近區域調整權重使其向輸入向量靠攏；（4）提供新樣本、進行訓練；（5）收縮鄰域半徑、減小學習率、重復，直到小於允許值，輸出聚類結果。 2.4 FCM聚類演算法 1965年美國加州大學柏克萊分校的扎德教授第一次提出了『集合』的概念。經過十多年的發展，模糊集合理論漸漸被應用到各個實際應用方面。為克服非此即彼的分類缺點，出現了以模糊集合論為數學基礎的聚類分析。用模糊數學的方法進行聚類分析，就是模糊聚類分析。 FCM演算法是一種以隸屬度來確定每個數據點屬於某個聚類程度的演算法。該聚類演算法是傳統硬聚類演算法的一種改進。演算法流程：（1）標准化數據矩陣；（2）建立模糊相似矩陣，初始化隸屬矩陣；（3）演算法開始迭代，直到目標函數收斂到極小值；（4）根據迭代結果，由最後的隸屬矩陣確定數據所屬的類，顯示最後的聚類結果。 3 試驗 3.1 試驗數據實驗中，選取專門用於測試分類、聚類演算法的國際通用的UCI資料庫中的IRIS數據集，IRIS數據集包含150個樣本數據，分別取自三種不同的鶯尾屬植物setosa、versicolor和virginica的花朵樣本，每個數據含有4個屬性，即萼片長度、萼片寬度、花瓣長度，單位為cm。在數據集上執行不同的聚類演算法，可以得到不同精度的聚類結果。 3.2 試驗結果說明文中基於前面所述各演算法原理及演算法流程，用matlab進行編程運算，得到表1所示聚類結果。如表1所示，對於四種聚類演算法，按三方面進行比較：（1）聚錯樣本數：總的聚錯的樣本數，即各類中聚錯的樣本數的和；（2）運行時間：即聚類整個過程所耗費的時間，單位為s；（3）平均准確度：設原數據集有k個類，用ci表示第i類，ni為ci中樣本的個數，mi為聚類正確的個數，則mi/ni為第i類中的精度，則平均精度為： 3.3 試驗結果分析四種聚類演算法中，在運行時間及准確度方面綜合考慮，k-means和FCM相對優於其他。但是，各個演算法還是存在固定缺點：k-means聚類演算法的初始點選擇不穩定，是隨機選取的，這就引起聚類結果的不穩定，本實驗中雖是經過多次實驗取的平均值，但是具體初始點的選擇方法還需進一步研究；層次聚類雖然不需要確定分類數，但是一旦一個分裂或者合並被執行，就不能修正，聚類質量受限制；FCM對初始聚類中心敏感，需要人為確定聚類數，容易陷入局部最優解；SOM與實際大腦處理有很強的理論聯系。但是處理時間較長，需要進一步研究使其適應大型資料庫。 4 結語聚類分析因其在許多領域的成功應用而展現出誘人的應用前景，除經典聚類演算法外，各種新的聚類方法正被不斷被提出。
該文章僅供學習參考使用，版權歸作者所有。

7. 聚類分析聚類演算法中包含哪些數據類型

聚類分析聚類演算法中包含哪些數據類型
許多基於內存的聚類演算法採用以下兩種數據結構：
(1)數據矩陣(Data Matrix，或稱對象一變盤結構)：用p個變數來表示n個對象，例如使用年齡、身高、性別、體重等屬性變數來表示對象人，也叫二模矩陣，行與列代表不同實體：

(2)相異度矩陣(Dissimilarity Matrix，又稱為對象一對象結構)：存儲所有成對的n個對象兩兩之間的近似性(鄰近度)，也叫單模矩陣，行和列代表相同的實體。其中d(ij)是對象i和對象j之間的測量差或相異度。d(i，f)是一個非負的數值，d(ij)越大，兩個對象越不同；d (i，j)越接近於0，則兩者之間越相似(相近)。

許多聚類演算法都是以相異度矩陣為基礎的，如果數據是用數據矩陣形式表示，則往往要將其先轉化為相異度矩陣。
相異度d(i,j)的具體計算會因所使用的數據類型不同而不同，常用的數據類型包括：區間標度變數，二元變數，標稱型、序數型和比例標度型變數，混合類型的變數。

8. 用於數據挖掘的聚類演算法有哪些，各有何優勢

聚類方法的分類，主要分為層次化聚類演算法，劃分式聚類演算法，基於密度的聚類演算法，基於網格的聚類演算法，基於模型的聚類演算法等。

而衡量聚類演算法優劣的標准主要是這幾個方面：處理大的數據集的能力；處理任意形狀，包括有間隙的嵌套的數據的能力；演算法處理的結果與數據輸入的順序是否相關，也就是說演算法是否獨立於數據輸入順序；處理數據雜訊的能力；是否需要預先知道聚類個數，是否需要用戶給出領域知識；演算法處理有很多屬性數據的能力，也就是對數據維數是否敏感。

.聚類演算法主要有兩種演算法，一種是自下而上法（bottom-up），一種是自上而下法（top-down）。這兩種路徑本質上各有優勢，主要看實際應用的時候要根據數據適用於哪一種，Hierarchical methods中比較新的演算法有BIRCH主要是在數據體量很大的時候使用；ROCK優勢在於異常數據抗干擾性強……

關於數據挖掘的相關學習，推薦CDA數據師的相關課程，課程以項目調動學員數據挖掘實用能力的場景式教學為主，在講師設計的業務場景下由講師不斷提出業務問題，再由學員循序漸進思考並操作解決問題的過程中，幫助學員掌握真正過硬的解決業務問題的數據挖掘能力。這種教學方式能夠引發學員的獨立思考及主觀能動性，學員掌握的技能知識可以快速轉化為自身能夠靈活應用的技能，在面對不同場景時能夠自由發揮。點擊預約免費試聽課。

9. 緊急求助!!!!!!!!!!!!!!!!!!"類聚"是什麼

一，什麼是聚類？

聚類：-將一個對象的集合分割成幾個類，每個類內的對象之間是相似的，但與其他類的對象是不相似的。

評判聚類好壞的標准：1，能夠適用於大數據量。2，能應付不同的數據類型。3，能夠發現不同類型的聚類。4，使對專業知識的要求降到最低。5，能應付臟數據。6，對於數據不同的順序不敏感。7，能應付很多類型的數據。8，模型可解釋，可使用。

二，聚類所基於的數據類型。

聚類演算法通常基於「數據矩陣」和「Dissimilarity 矩陣」。

怎麼樣計算不同對象之間的距離？

1，數值連續的變數（體重，身高等）：度量單位的選取對於聚類的結果的很重要的。例如將身高的單位從米變為尺，將體重的單位從公斤變為磅將對聚類的結果產生很大的影響。為了避免出現這種情況，我們必須將數據標准化：將數據中的單位「去掉」。

A, 計算絕對背離度。B,計算標准量度。

下面我們考慮怎樣來計算兩個對象之間的差異。1，歐幾里得距離。2，曼哈頓距離。這兩種演算法有共同之處：d(i,j)>=0,d(i,i)=0, d(i,j)=d(j,i),d(i,j)=<d(i,h)+d(h,j)。3，Minkowski距離。這是上述兩種演算法的通式。並且對於不同的變數，我們可以給它賦於不同的weight.

2，二元數據變數：如果還是用上面的方法來計算的話，肯定會出現錯誤。這兒分

兩種情況，對稱的與非對稱的。

3，Nominal變數：(例如紅，黃，綠，藍….)

4，ordinal變數（例如科長，處長，局長….）

5，ratio-scaled變數：

6,以上幾種混合的變數（多數情況是這樣的）：

三，分割的的方法。

1， K均值演算法：給定類的個數K，將n個對象分到K個類中去，使得類內對象之間的相似性最大，而類之間的相似性最小。

缺點：產生類的大小相差不會很大，對於臟數據很敏感。

改進的演算法：k—medoids 方法。這兒選取一個對象叫做mediod來代替上面的中心

的作用，這樣的一個medoid就標識了這個類。步驟：

1，任意選取K個對象作為medoids（O1,O2,…Oi…Ok）。

以下是循環的：

2，將餘下的對象分到各個類中去（根據與medoid最相近的原則）；

3，對於每個類（Oi）中，順序選取一個Or，計算用Or代替Oi後的消耗—E（Or）。選擇E最小的那個Or來代替Oi。這樣K個medoids就改變了，下面就再轉到2。

4，這樣循環直到K個medoids固定下來。

這種演算法對於臟數據和異常數據不敏感，但計算量顯然要比K均值要大，一般只適合小數據量。

10. 有哪些常用的聚類演算法

【聚類】聚類分析是直接比較各對象之間的性質，根據在對象屬性中發現的描述對象及其關系的信息，將數據對象分組。其目標是，組內的對象相互之間是相似的（相關的），而不同組中的對象是不同的（不相關的）。組內的相似性（同質性）越大，組間差別越大，聚類就越好。

聚類的目標是通過對無標記訓練樣本的學習來揭示數據的內在性質及規律，是無監督學習過程。在無監督學習中，訓練樣本標記信息是未知的。聚類試圖將數據集中的樣本劃分為若干個通常不相交的子集，每個子集稱為一個「簇」，每個簇可能對應於一些潛在的類別，這些類別概念對聚類演算法而言事先是未知的，聚類過程僅能自動形成簇結構，簇所對應的概念語義需要由使用者來把握和命名。

導航:首頁 > 源碼編譯 > 類聚演算法

類聚演算法

與類聚演算法相關的資料