聚類演算法kmeans要測試嗎_kmeans聚類演算法是什麼

A. 關於K-Means聚類演算法的，大家交流一下。

當然是敏感的，跟程序中如何處理數據有很大的關系。比如兩個中心點（-1,0）（1,0），這時讀入數據（0,0），那麼程序計算與所有中心點的距離，因為距離相同，程序會給其中一個，至於給哪個，都是由程序決定，一般按數據存儲的先後順序來給。而且結果不同不能代表聚類結果差，而是說明結果的多樣化，本身K的選取就是沒有一個約定的方法，所以結果有差別也是理所當然的。關鍵是你要如何體現你的演算法的優越性。就是要跟別的演算法作比較，比如從演算法的空間、時間復雜度，演算法的運行處理速度等等因素來做比較。

B. K均值聚類

k均值聚類演算法是一種迭代求解的聚類分析演算法，其步驟是，預將數據分為K組，則隨機選取K個對象作為初始的聚類中心，然後計算每個對象與各個種子聚類中心之間的距離，把每個對象分配給距離它最近的聚類中心。

聚類中心以及分配給它們的對象就代表一個聚類。每分配一個樣本，聚類的聚類中心會根據聚類中現有的對象被重新計算。

這個過程將不斷重復直到滿足某個終止條件。終止條件可以是沒有（或最小數目）對象被重新分配給不同的聚類，沒有（或最小數目）聚類中心再發生變化，誤差平方和局部最小。

k均值聚類是最著名的劃分聚類演算法，由於簡潔和效率使得他成為所有聚類演算法中最廣泛使用的。給定一個數據點集合和需要的聚類數目k，k由用戶指定，k均值演算法根據某個距離函數反復把數據分入k個聚類中。

C. kmeans聚類演算法是什麼

K-means演算法是最為經典的基於劃分的聚類方法，是十大經典數據挖掘演算法之一。K-means演算法的基本思想是：以空間中k個點為中心進行聚類，對最靠近他們的對象歸類。通過迭代的方法，逐次更新各聚類中心的值，直至得到最好的聚類結果。

聚類屬於無監督學習，以往的回歸、樸素貝葉斯、SVM等都是有類別標簽y的，也就是說樣例中已經給出了樣例的分類。而聚類的樣本中卻沒有給定y，只有特徵x，比如假設宇宙中的星星可以表示成三維空間中的點集。

(3)聚類演算法kmeans要測試嗎擴展閱讀：

k個聚類以便使得所獲得的聚類滿足：同一聚類中的對象相似度較高；而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個「中心對象」（引力中心）來進行計算的。

（1）適當選擇c個類的初始中心；

（2）在第k次迭代中，對任意一個樣本，求其到c個中心的距離，將該樣本歸到距離最短的中心所在的類；

（3）利用均值等方法更新該類的中心值；

（4）對於所有的c個聚類中心，如果利用（2）（3）的迭代法更新後，值保持不變，則迭代結束，否則繼續迭代。

D. kmeans是否要求樣本標記

非監督類的演算法不需要樣本的標注信息，所以Kmeans不需要樣本標注
Kmeans演算法屬於無監督學習(聚類)，對於訓練樣本的標記信息是未知的
對給定的無標記的樣本數據集，事先確定聚類簇數K，讓簇內的樣本盡可能緊密分布在一起，使簇間的距離盡可能大。K-Means作為無監督的聚類演算法，其類似於全自動分類，簇內越相似，聚類效果越好，實現較簡單，聚類效果好，因此被廣泛使用。用以下的效果圖更能直觀地看出其過程：

E. 有什麼網站提供kmeans演算法的測試數據嗎

一，K-Means聚類演算法原理 k-means 演算法接受參數 k ；然後將事先輸入的n個數據對象劃分為 k個聚類以便使得所獲得的聚類滿足：同一聚類中的對象相似度較高；而不同聚類中的對象相似度較校聚類相似度是利用各聚類中對象的均值所獲得一個「中心對象」。

F. kmeans演算法是什麼

K-means演算法是一種基於距離的聚類演算法，也叫做K均值或K平均，也經常被稱為勞埃德(Lloyd)演算法。是通過迭代的方式將數據集中的各個點劃分到距離它最近的簇內，距離指的是數據點到簇中心的距離。

K-means演算法的思想很簡單，對於給定的樣本集，按照樣本之間的距離大小，將樣本劃分為K個簇。將簇內的數據盡量緊密的連在一起，而讓簇間的距離盡量的大。

演算法流程

1、選取數據空間中的K個對象作為初始中心，每個對象代表一個聚類中心。

2、對於樣本中的數據對象，根據它們與這些聚類中心的歐氏距離，按距離最近的准則將它們分到距離它們最近的聚類中心（最相似）所對應的類。

3、更新聚類中心：將每個類別中所有對象所對應的均值作為該類別的聚類中心，計算目標函數的值。

4、判斷聚類中心和目標函數的值是否發生改變，若不變，則輸出結果，若改變，則返回2）。

G. 四種聚類方法之比較

四種聚類方法之比較
介紹了較為常見的k-means、層次聚類、SOM、FCM等四種聚類演算法，闡述了各自的原理和使用步驟，利用國際通用測試數據集IRIS對這些演算法進行了驗證和比較。結果顯示對該測試類型數據，FCM和k-means都具有較高的准確度，層次聚類准確度最差，而SOM則耗時最長。
關鍵詞:聚類演算法；k-means；層次聚類；SOM；FCM
聚類分析是一種重要的人類行為，早在孩提時代，一個人就通過不斷改進下意識中的聚類模式來學會如何區分貓狗、動物植物。目前在許多領域都得到了廣泛的研究和成功的應用，如用於模式識別、數據分析、圖像處理、市場研究、客戶分割、Web文檔分類等[1]。
聚類就是按照某個特定標准(如距離准則)把一個數據集分割成不同的類或簇，使得同一個簇內的數據對象的相似性盡可能大，同時不在同一個簇中的數據對象的差異性也盡可能地大。即聚類後同一類的數據盡可能聚集到一起，不同數據盡量分離。
聚類技術[2]正在蓬勃發展，對此有貢獻的研究領域包括數據挖掘、統計學、機器學習、空間資料庫技術、生物學以及市場營銷等。各種聚類方法也被不斷提出和改進，而不同的方法適合於不同類型的數據，因此對各種聚類方法、聚類效果的比較成為值得研究的課題。
1 聚類演算法的分類
目前，有大量的聚類演算法[3]。而對於具體應用，聚類演算法的選擇取決於數據的類型、聚類的目的。如果聚類分析被用作描述或探查的工具，可以對同樣的數據嘗試多種演算法，以發現數據可能揭示的結果。
主要的聚類演算法可以劃分為如下幾類：劃分方法、層次方法、基於密度的方法、基於網格的方法以及基於模型的方法[4-6]。
每一類中都存在著得到廣泛應用的演算法，例如：劃分方法中的k-means[7]聚類演算法、層次方法中的凝聚型層次聚類演算法[8]、基於模型方法中的神經網路[9]聚類演算法等。
目前,聚類問題的研究不僅僅局限於上述的硬聚類，即每一個數據只能被歸為一類，模糊聚類[10]也是聚類分析中研究較為廣泛的一個分支。模糊聚類通過隸屬函數來確定每個數據隸屬於各個簇的程度，而不是將一個數據對象硬性地歸類到某一簇中。目前已有很多關於模糊聚類的演算法被提出，如著名的FCM演算法等。
本文主要對k-means聚類演算法、凝聚型層次聚類演算法、神經網路聚類演算法之SOM,以及模糊聚類的FCM演算法通過通用測試數據集進行聚類效果的比較和分析。
2 四種常用聚類演算法研究
2.1 k-means聚類演算法
k-means是劃分方法中較經典的聚類演算法之一。由於該演算法的效率高，所以在對大規模數據進行聚類時被廣泛應用。目前，許多演算法均圍繞著該演算法進行擴展和改進。
k-means演算法以k為參數，把n個對象分成k個簇，使簇內具有較高的相似度，而簇間的相似度較低。k-means演算法的處理過程如下：首先，隨機地選擇k個對象，每個對象初始地代表了一個簇的平均值或中心;對剩餘的每個對象，根據其與各簇中心的距離，將它賦給最近的簇;然後重新計算每個簇的平均值。這個過程不斷重復，直到准則函數收斂。通常，採用平方誤差准則，其定義如下：

這里E是資料庫中所有對象的平方誤差的總和，p是空間中的點，mi是簇Ci的平均值[9]。該目標函數使生成的簇盡可能緊湊獨立，使用的距離度量是歐幾里得距離,當然也可以用其他距離度量。k-means聚類演算法的演算法流程如下：
輸入：包含n個對象的資料庫和簇的數目k；
輸出：k個簇，使平方誤差准則最小。
步驟：
(1) 任意選擇k個對象作為初始的簇中心；
(2) repeat；
(3) 根據簇中對象的平均值，將每個對象(重新)賦予最類似的簇；
(4) 更新簇的平均值，即計算每個簇中對象的平均值；
(5) until不再發生變化。
2.2 層次聚類演算法
根據層次分解的順序是自底向上的還是自上向下的，層次聚類演算法分為凝聚的層次聚類演算法和分裂的層次聚類演算法。
凝聚型層次聚類的策略是先將每個對象作為一個簇，然後合並這些原子簇為越來越大的簇，直到所有對象都在一個簇中，或者某個終結條件被滿足。絕大多數層次聚類屬於凝聚型層次聚類，它們只是在簇間相似度的定義上有所不同。四種廣泛採用的簇間距離度量方法如下：

這里給出採用最小距離的凝聚層次聚類演算法流程：
(1) 將每個對象看作一類，計算兩兩之間的最小距離；
(2) 將距離最小的兩個類合並成一個新類；
(3) 重新計算新類與所有類之間的距離；
(4) 重復(2)、(3)，直到所有類最後合並成一類。
2.3 SOM聚類演算法
SOM神經網路[11]是由芬蘭神經網路專家Kohonen教授提出的，該演算法假設在輸入對象中存在一些拓撲結構或順序，可以實現從輸入空間(n維)到輸出平面(2維)的降維映射，其映射具有拓撲特徵保持性質,與實際的大腦處理有很強的理論聯系。
SOM網路包含輸入層和輸出層。輸入層對應一個高維的輸入向量，輸出層由一系列組織在2維網格上的有序節點構成，輸入節點與輸出節點通過權重向量連接。學習過程中，找到與之距離最短的輸出層單元，即獲勝單元，對其更新。同時，將鄰近區域的權值更新，使輸出節點保持輸入向量的拓撲特徵。
演算法流程：
(1) 網路初始化，對輸出層每個節點權重賦初值；
(2) 將輸入樣本中隨機選取輸入向量，找到與輸入向量距離最小的權重向量；
(3) 定義獲勝單元，在獲勝單元的鄰近區域調整權重使其向輸入向量靠攏；
(4) 提供新樣本、進行訓練；
(5) 收縮鄰域半徑、減小學習率、重復，直到小於允許值，輸出聚類結果。
2.4 FCM聚類演算法
1965年美國加州大學柏克萊分校的扎德教授第一次提出了『集合』的概念。經過十多年的發展，模糊集合理論漸漸被應用到各個實際應用方面。為克服非此即彼的分類缺點，出現了以模糊集合論為數學基礎的聚類分析。用模糊數學的方法進行聚類分析，就是模糊聚類分析[12]。
FCM演算法是一種以隸屬度來確定每個數據點屬於某個聚類程度的演算法。該聚類演算法是傳統硬聚類演算法的一種改進。

演算法流程：
(1) 標准化數據矩陣；
(2) 建立模糊相似矩陣，初始化隸屬矩陣；
(3) 演算法開始迭代，直到目標函數收斂到極小值；
(4) 根據迭代結果，由最後的隸屬矩陣確定數據所屬的類，顯示最後的聚類結果。
3 四種聚類演算法試驗
3.1 試驗數據
實驗中，選取專門用於測試分類、聚類演算法的國際通用的UCI資料庫中的IRIS[13]數據集，IRIS數據集包含150個樣本數據，分別取自三種不同的鶯尾屬植物setosa、versicolor和virginica的花朵樣本,每個數據含有4個屬性，即萼片長度、萼片寬度、花瓣長度，單位為cm。在數據集上執行不同的聚類演算法，可以得到不同精度的聚類結果。
3.2 試驗結果說明
文中基於前面所述各演算法原理及演算法流程，用matlab進行編程運算，得到表1所示聚類結果。

如表1所示，對於四種聚類演算法，按三方面進行比較：(1)聚錯樣本數：總的聚錯的樣本數，即各類中聚錯的樣本數的和；(2)運行時間：即聚類整個過程所耗費的時間，單位為s；(3)平均准確度：設原數據集有k個類,用ci表示第i類，ni為ci中樣本的個數，mi為聚類正確的個數,則mi/ni為第i類中的精度，則平均精度為：

3.3 試驗結果分析
四種聚類演算法中，在運行時間及准確度方面綜合考慮，k-means和FCM相對優於其他。但是，各個演算法還是存在固定缺點：k-means聚類演算法的初始點選擇不穩定，是隨機選取的，這就引起聚類結果的不穩定，本實驗中雖是經過多次實驗取的平均值，但是具體初始點的選擇方法還需進一步研究；層次聚類雖然不需要確定分類數，但是一旦一個分裂或者合並被執行，就不能修正，聚類質量受限制；FCM對初始聚類中心敏感，需要人為確定聚類數，容易陷入局部最優解；SOM與實際大腦處理有很強的理論聯系。但是處理時間較長，需要進一步研究使其適應大型資料庫。
聚類分析因其在許多領域的成功應用而展現出誘人的應用前景，除經典聚類演算法外，各種新的聚類方法正被不斷被提出。

H. 怎麼對k-means聚類結果進行分析

K-means演算法是很典型的基於距離的聚類演算法，採用距離作為相似性的評價指標，即認為兩個對象的距離越近，其相似度就越大。該演算法認為簇是由距離靠近的對象組成的，因此把得到緊湊且獨立的簇作為最終目標。 k個初始類聚類中心點的選取對聚類結果具有較大的公式影響，因為在該演算法第一步中是隨機的選取任意k個對象作為初始聚類的中心，初始地代表一個簇。該演算法在每次迭代中對數據集中剩餘的每個對象，根據其與各個簇中心的距離將每個對象重新賦給最近的簇。當考察完所有數據對象後，一次迭代運算完成，新的聚類中心被計算出來。如果在一次迭代前後，J的值沒有發生變化，說明演算法已經收斂。演算法過程如下： 1）從N個文檔隨機選取K個文檔作為質心 2）對剩餘的每個文檔測量其到每個質心的距離，並把它歸到最近的質心的類 3）重新計算已經得到的各個類的質心 4）迭代2～3步直至新的質心與原質心相等或小於指定閾值，演算法結束具體如下：輸入：k, data[n]; （1）選擇k個初始中心點，例如c[0]=data[0],…c[k-1]=data[k-1]；（2）對於data[0]….data[n]，分別與c[0]…c[k-1]比較，假定與c[i]差值最少，就標記為i；（3）對於所有標記為i點，重新計算c[i]={ 所有標記為i的data[j]之和}/標記為i的個數；（4）重復(2)(3)，直到所有c[i]值的變化小於給定閾值。工作原理 K-MEANS演算法的工作原理及流程 K-MEANS演算法輸入：聚類個數k，以及包含 n個數據對象的資料庫。輸出：滿足方差最小標準的k個聚類。處理流程（1）從 n個數據對象任意選擇 k 個對象作為初始聚類中心；（2）根據每個聚類對象的均值（中心對象），計算每個對象與這些中心對象的距離；並根據最小距離重新對相應對象進行劃分；（3）重新計算每個（有變化）聚類的均值（中心對象）（4）循環（2）到（3）直到每個聚類不再發生變化為止 k-means 演算法接受輸入量 k ；然後將n個數據對象劃分為 k個聚類以便使得所獲得的聚類滿足：同一聚類中的對象相似度較高；而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個「中心對象」（引力中心）來進行計算的。工作過程k-means 演算法的工作過程說明如下：首先從n個數據對象任意選擇 k 個對象作為初始聚類中心；而對於所剩下其它對象，則根據它們與這些聚類中心的相似度（距離），分別將它們分配給與其最相似的（聚類中心所代表的）聚類；然後再計算每個所獲新聚類的聚類中心（該聚類中所有對象的均值）；不斷重復這一過程直到標准測度函數開始收斂為止。一般都採用均方差作為標准測度函數。k個聚類具有以下特點：各聚類本身盡可能的緊湊，而各聚類之間盡可能的分開。

I. spark機器學習-聚類

spark機器學習-聚類
聚類演算法是一種無監督學習任務，用於將對象分到具有高度相似性的聚類中，聚類演算法的思想簡單的說就是物以類聚的思想，相同性質的點在空間中表現的較為緊密和接近，主要用於數據探索與異常檢測，最常用的一種聚類演算法是K均值(K-means)聚類演算法

演算法原理
kmeans的計算方法如下：
1 選取k個中心點
2 遍歷所有數據，將每個數據劃分到最近的中心點中
3 計算每個聚類的平均值，並作為新的中心點
4 重復2-3，直到這k個中線點不再變化（收斂了），或執行了足夠多的迭代
演算法的時間復雜度上界為O(n*k*t), 其中k為輸入的聚類個數，n為數據量，t為迭代次數。一般t,k,n均可認為是常量，時間和空間復雜度可以簡化為O(n)，即線性的
spark ml編碼實踐
可在spark-shell環境下修改參數調試以下代碼，可以用實際的業務數據做測試評估，業務數據一般是多列，可以把維度列用VectorAssembler組裝成向量列做為Kmeans演算法的輸入列，考慮現實的應用場景，比如做異常數據檢測，正常數據分為一類，異常數據分為幾類，分別統計正常數據與異常數據的數據量，求百分比等
<span style="font-size:18px;">import org.apache.spark.ml.clustering.KMeans
import org.apache.spark.mllib.linalg.Vectors

val dataset = sqlContext.createDataFrame(Seq(
(1, Vectors.dense(0.0, 0.0, 0.0)),
(2, Vectors.dense(0.1, 0.1, 0.1)),
(3, Vectors.dense(0.2, 0.2, 0.2)),
(4, Vectors.dense(9.0, 9.0, 9.0)),
(5, Vectors.dense(1.1, 1.1, 0.1)),
(6, Vectors.dense(12, 14, 100)),
(6, Vectors.dense(1.1, 0.1, 0.2)),
(6, Vectors.dense(-2, -3, -4)),
(6, Vectors.dense(1.6, 0.6, 0.2))
)).toDF("id", "features")

// Trains a k-means model
val kmeans = new KMeans().setK(3).setMaxIter(20).setFeaturesCol("features").setPredictionCol("prediction")
val model = kmeans.fit(dataset)

// Shows the result
println("Final Centers: ")
model.clusterCenters.foreach(println)
model.clusterCenters.zipWithIndex.foreach(println)

val myres = model.transform(dataset).select("features","prediction")
myres.show()</span>
聚類演算法是一類無監督式機器學習演算法，聚類效果怎麼評估，模型訓練參數怎麼調優，是否能用管道來訓練模型來比較各種不同組合的參數的效果，即網格搜索法(gridsearch),先設置好待測試的參數，MLLib就會自動完成這些參數的不同組合,管道搭建了一條工作流，一次性完成了整個模型的調優，而不是獨立對每個參數進行調優，這個還要再確認一下，查看SPARK-14516好像目前還沒有一個聚類效果通用的自動的度量方法
像這種代碼（不過現在這個代碼有問題）：
<span style="font-size:18px;">import org.apache.spark.ml.clustering.KMeans
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.ml.tuning.{ ParamGridBuilder, CrossValidator }
import org.apache.spark.ml.{ Pipeline, PipelineStage }

val dataset = sqlContext.createDataFrame(Seq(
(1, Vectors.dense(0.0, 0.0, 0.0)),
(2, Vectors.dense(0.1, 0.1, 0.1)),
(3, Vectors.dense(0.2, 0.2, 0.2)),
(4, Vectors.dense(9.0, 9.0, 9.0)),
(5, Vectors.dense(1.1, 1.1, 0.1)),
(6, Vectors.dense(12, 14, 100)),
(6, Vectors.dense(1.1, 0.1, 0.2)),
(6, Vectors.dense(-2, -3, -4)),
(6, Vectors.dense(1.6, 0.6, 0.2))
)).toDF("id", "features")

val kmeans = new KMeans().setK(2).setMaxIter(20).setFeaturesCol("features").setPredictionCol("prediction")
//主要問題在這里，沒有可用的評估器與label列設置
val evaluator = new BinaryClassificationEvaluator().setLabelCol("prediction")
val paramGrid = new ParamGridBuilder().addGrid(kmeans.initMode, Array("random")).addGrid(kmeans.k, Array(3, 4)).addGrid(kmeans.maxIter, Array(20, 60)).addGrid(kmeans.seed, Array(1L, 2L)).build()
val steps: Array[PipelineStage] = Array(kmeans)
val pipeline = new Pipeline().setStages(steps)

val cv = new CrossValidator().setEstimator(pipeline).setEvaluator(evaluator).setEstimatorParamMaps(paramGrid).setNumFolds(10)
// Trains a model
val pipelineFittedModel = cv.fit(dataset)</span>

J. kmeans聚類演算法是什麼

kmeans聚類演算法是將樣本聚類成k個簇（cluster）。

K-Means演算法的思想很簡單，對於給定的樣本集，按照樣本之間的距離大小，將樣本集劃分為K個簇。讓簇內的點盡量緊密的連在一起，而讓簇間的距離盡量的大。在實際K-Mean演算法中，我們一般會多次運行圖c和圖d，才能達到最終的比較優的類別。

用數據表達式表示

假設簇劃分為$(C_1,C_2,...C_k)$，則我們的目標是最小化平方誤差E：$$ E = sumlimits_{i=1}^ksumlimits_{x in C_i} ||x-mu_i||_2^2$$。

其中$mu_i$是簇$C_i$的均值向量，有時也稱為質心，表達式為：$$mu_i = frac{1}{|C_i|}sumlimits_{x in C_i}x$$。

導航:首頁 > 源碼編譯 > 聚類演算法kmeans要測試嗎

聚類演算法kmeans要測試嗎

與聚類演算法kmeans要測試嗎相關的資料