導航:首頁 > 源碼編譯 > KMeans演算法循環終止條件有

KMeans演算法循環終止條件有

發布時間:2022-06-05 14:02:55

A. kmeans聚類演算法是什麼

k均值聚類演算法是一種迭代求解的聚類分析演算法,由於簡潔和效率使得他成為所有聚類演算法中最廣泛使用的。k均值聚類演算法通過給定一個數據點集合和需要的聚類數目k,k由用戶指定,k均值演算法根據某個距離函數反復把數據分入k個聚類中。

k均值聚類演算法的具體步驟:

其步驟是預將數據分為K組,則隨機選取K個對象作為初始的聚類中心,然後計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對象就代表一個聚類。

每分配一個樣本,聚類的聚類中心會根據聚類中現有的對象被重新計算。這個過程將不斷重復直到滿足某個終止條件。終止條件可以是沒有(或最小數目)對象被重新分配給不同的聚類,沒有(或最小數目)聚類中心再發生變化,誤差平方和局部最小。

B. k-means聚類演算法常用的終止條件有哪些

K-means 演算法屬於聚類分析方法中一種基本的且應用最廣泛的劃分演算法,它是一種已知聚類類別數的聚類演算法。指定類別數為K,對樣本集合進行聚類,聚類的結果由K 個聚類中心來表達,基於給定的聚類目標函數(或者說是聚類效果判別准則),演算法採用迭代更新的方法,每一次迭代過程都是向目標函數值減小的方向進行,最終的聚類結果使目標函數值取得極小值,達到較優的聚類效果。使用平均誤差准則函數E作為聚類結果好壞的衡量標准之一,保證了演算法運行結果的可靠性和有效性。

C. kmeans演算法是什麼

K-means演算法是一種基於距離的聚類演算法,也叫做K均值或K平均,也經常被稱為勞埃德(Lloyd)演算法。是通過迭代的方式將數據集中的各個點劃分到距離它最近的簇內,距離指的是數據點到簇中心的距離。

K-means演算法的思想很簡單,對於給定的樣本集,按照樣本之間的距離大小,將樣本劃分為K個簇。將簇內的數據盡量緊密的連在一起,而讓簇間的距離盡量的大。

演算法流程

1、選取數據空間中的K個對象作為初始中心,每個對象代表一個聚類中心。

2、對於樣本中的數據對象,根據它們與這些聚類中心的歐氏距離,按距離最近的准則將它們分到距離它們最近的聚類中心(最相似)所對應的類。

3、更新聚類中心:將每個類別中所有對象所對應的均值作為該類別的聚類中心,計算目標函數的值。

4、判斷聚類中心和目標函數的值是否發生改變,若不變,則輸出結果,若改變,則返回2)。

D. 大數據十大經典演算法之k-means

大數據十大經典演算法之k-means
k均值演算法基本思想:
K均值演算法是基於質心的技術。它以K為輸入參數,把n個對象集合分為k個簇,使得簇內的相似度高,簇間的相似度低。
處理流程:
1、為每個聚類確定一個初始聚類中心,這樣就有k個初始聚類中心;
2、將樣本按照最小距離原則分配到最鄰近聚類
3、使用每個聚類中的樣本均值作為新的聚類中心
4、重復步驟2直到聚類中心不再變化
5、結束,得到K個聚類
劃分聚類方法對數據集進行聚類時的要點:
1、選定某種距離作為數據樣本間的相似性度量,通常選擇歐氏距離。
2、選擇平價聚類性能的准則函數
用誤差平方和准則函數來評價聚類性能。
3、相似度的計算分局一個簇中對象的平均值來進行
K均值演算法的優點:
如果變數很大,K均值比層次聚類的計算速度較快(如果K很小);
與層次聚類相比,K均值可以得到更緊密的簇,尤其是對於球狀簇;
對於大數據集,是可伸縮和高效率的;
演算法嘗試找出使平方誤差函數值最小的k個劃分。當結果簇是密集的,而簇與簇之間區別明顯的時候,效果較好。
K均值演算法缺點:
最後結果受初始值的影響。解決辦法是多次嘗試取不同的初始值。
可能發生距離簇中心m最近的樣本集為空的情況,因此m得不到更新。這是一個必須處理的問題,但我們忽略該問題。
不適合發現非凸面形狀的簇,並對雜訊和離群點數據較敏感,因為少量的這類數據能夠對均值產生較大的影響。
K均值演算法的改進:
樣本預處理。計算樣本對象量量之間的距離,篩掉與其他所有樣本那的距離和最大的m個對象。
初始聚類中心的選擇。選用簇中位置最靠近中心的對象,這樣可以避免孤立點的影響。
K均值演算法的變種:
K眾數(k-modes)演算法,針對分類屬性的度量和更新質心的問題而改進。
EM(期望最大化)演算法
k-prototype演算法
這種演算法不適合處理離散型屬性,但是對於連續型具有較好的聚類效果。
k均值演算法用途:
圖像分割;
衡量足球隊的水平;
下面給出代碼:
#include <iostream>
#include <vector>
//auther archersc
//JLU
namespace CS_LIB
{
using namespace std;
class Kmean
{
public:
//輸入格式
//數據數量N 維度D
//以下N行,每行D個數據
istream& loadData(istream& in);
//輸出格式
//聚類的數量CN
//中心維度CD
//CN行,每行CD個數據
//數據數量DN
//數據維度DD
//以下DN組,每組的第一行兩個數值DB, DDis
//第二行DD個數值
//DB表示改數據屬於一類,DDis表示距離改類的中心的距離
ostream& saveData(ostream& out);
//設置中心的數量
void setCenterCount(const size_t count);
size_t getCenterCount() const;
//times最大迭代次數, maxE ,E(t)表示第t次迭代後的平方誤差和,當|E(t+1) - E(t)| < maxE時終止
void clustering(size_t times, double maxE);

private:
double calDistance(vector<double>& v1, vector<double>& v2);

private:
vector< vector<double> > m_Data;
vector< vector<double> > m_Center;
vector<double> m_Distance;
vector<size_t> m_DataBelong;
vector<size_t> m_DataBelongCount;
};
}
#include "kmean.h"

#include <ctime>
#include <cmath>
#include <cstdlib>
//auther archersc
//JLU

namespace CS_LIB
{
template<class T>
void swap(T& a, T& b)
{
T c = a;
a = b;
b = c;
}

istream& Kmean::loadData(istream& in)
{
if (!in){
cout << "input error" << endl;
return in;
}
size_t dCount, dDim;
in >> dCount >> dDim;
m_Data.resize(dCount);
m_DataBelong.resize(dCount);
m_Distance.resize(dCount);
for (size_t i = 0; i < dCount; ++i){
m_Data[i].resize(dDim);
for (size_t j = 0; j < dDim; ++j){
in >> m_Data[i][j];
}
}
return in;
}
ostream& Kmean::saveData(ostream& out)
{
if (!out){
cout << "output error" << endl;
return out;
}
out << m_Center.size();
if (m_Center.size() > 0)
out << << m_Center[0].size();
else
out << << 0;
out << endl << endl;
for (size_t i = 0; i < m_Center.size(); ++i){
for (size_t j = 0; j < m_Center[i].size(); ++j){
out << m_Center[i][j] << ;
}
out << endl;
}
out << endl;
out << m_Data.size();
if (m_Data.size() > 0)
out << << m_Data[0].size();
else
out << << 0;
out << endl << endl;
for (size_t i = 0; i < m_Data.size(); ++i){
out << m_DataBelong[i] << << m_Distance[i] << endl;
for (size_t j = 0; j < m_Data[i].size(); ++j){
out << m_Data[i][j] << ;
}
out << endl << endl;
}
return out;
}
void Kmean::setCenterCount(const size_t count)
{
m_Center.resize(count);
m_DataBelongCount.resize(count);
}
size_t Kmean::getCenterCount() const
{
return m_Center.size();
}
void Kmean::clustering(size_t times, double maxE)
{
srand((unsigned int)time(NULL));
//隨機從m_Data中選取m_Center.size()個不同的樣本點作為初始中心。
size_t *pos = new size_t[m_Data.size()];
size_t i, j, t;
for (i = 0; i < m_Data.size(); ++i){
pos[i] = i;
}
for (i = 0; i < (m_Data.size() << 1); ++i){
size_t s1 = rand() % m_Data.size();
size_t s2 = rand() % m_Data.size();
swap(pos[s1], pos[s2]);
}
for (i = 0; i < m_Center.size(); ++i){
m_Center[i].resize(m_Data[pos[i]].size());
for (j = 0; j < m_Data[pos[i]].size(); ++j){
m_Center[i][j] = m_Data[pos[i]][j];
}
}
delete []pos;
double currE, lastE;
for (t = 0; t < times; ++t){
for (i = 0; i < m_Distance.size(); ++i)
m_Distance[i] = LONG_MAX;
for (i = 0; i < m_DataBelongCount.size(); ++i)
m_DataBelongCount[i] = 0;
currE = 0.0;
for (i = 0; i < m_Data.size(); ++i){
for (j = 0; j < m_Center.size(); ++j){
double dis = calDistance(m_Data[i], m_Center[j]);
if (dis < m_Distance[i]){
m_Distance[i] = dis;
m_DataBelong[i] = j;
}
}
currE += m_Distance[i];
m_DataBelongCount[m_DataBelong[i]]++;
}
cout << currE << endl;
if (t == 0 || fabs(currE - lastE) > maxE)
lastE = currE;
else
break;
for (i = 0; i < m_Center.size(); ++i){
for (j = 0; j < m_Center[i].size(); ++j)
m_Center[i][j] = 0.0;

}
for (i = 0; i < m_DataBelong.size(); ++i){
for (j = 0; j < m_Data[i].size(); ++j){
m_Center[m_DataBelong[i]][j] += m_Data[i][j] / m_DataBelongCount[m_DataBelong[i]];
}
}
}
}
double Kmean::calDistance(vector<double>& v1, vector<double>& v2)
{
double result = 0.0;
for (size_t i = 0; i < v1.size(); ++i){
result += (v1[i] - v2[i]) * (v1[i] - v2[i]);
}
return pow(result, 1.0 / v1.size());
//return sqrt(result);
}
}
#include <iostream>
#include <fstream>
#include "kmean.h"
using namespace std;
using namespace CS_LIB;

int main()
{
ifstream in("in.txt");
ofstream out("out.txt");
Kmean kmean;
kmean.loadData(in);
kmean.setCenterCount(4);
kmean.clustering(1000, 0.000001);
kmean.saveData(out);

return 0;
}

E. K均值聚類

k均值聚類演算法是一種迭代求解的聚類分析演算法,其步驟是,預將數據分為K組,則隨機選取K個對象作為初始的聚類中心,然後計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。

聚類中心以及分配給它們的對象就代表一個聚類。每分配一個樣本,聚類的聚類中心會根據聚類中現有的對象被重新計算。

這個過程將不斷重復直到滿足某個終止條件。終止條件可以是沒有(或最小數目)對象被重新分配給不同的聚類,沒有(或最小數目)聚類中心再發生變化,誤差平方和局部最小。

k均值聚類是最著名的劃分聚類演算法,由於簡潔和效率使得他成為所有聚類演算法中最廣泛使用的。給定一個數據點集合和需要的聚類數目k,k由用戶指定,k均值演算法根據某個距離函數反復把數據分入k個聚類中。

F. K-means的存在問題

存在的問題
K-means 演算法的特點——採用兩階段反復循環過程演算法,結束的條件是不再有數據元素被重新分配: 優點:本演算法確定的K 個劃分到達平方誤差最小。當聚類是密集的,且類與類之間區別明顯時,效果較好。對於處理大數據集,這個演算法是相對可伸縮和高效的,計算的復雜度為O(NKt),其中N是數據對象的數目,t是迭代的次數。一般來說,K<<N,t<<N 。

G. matlab中kmeans演算法程序如下 我要做圖像分類 主程序改怎麼寫那知道的寫下 謝謝了


x = [1,6,9,13,2,8,7,4,11,5,3,10,12];

numGroups = 4; % 組的數目
xMax = max(x);
xMin = min(x);
boundries = xMin + (0:numGroups) * (xMax - xMin) / (numGroups - 1); % 組的邊界

xGroup = zeros(size(x)); % 初始化
for group = 1:numGroups
loc = (x >= boundries(group)) & (x <= boundries(group + 1)); %在這個組的書的坐標
xGroup(loc) = group;
end

結果存在xGroup里

補充:
如果要按照你的那樣輸出,可以改成這樣:
x = [1,6,9,13,2,8,7,4,11,5,3,10,12];
GroupName = ['A','B','C','D'];

numGroups = length(GroupName); % 組的數目
xMax = max(x);
xMin = min(x);
boundries = xMin + (0:numGroups) * (xMax - xMin) / (numGroups - 1); % 組的邊界

xGroup = zeros(size(x)); % 初始化
for group = 1:numGroups
loc = (x >= boundries(group)) & (x <= boundries(group + 1)); %在這個組的書的坐標
xGroup(loc) = group;
end

xGroupName = GroupName(xGroup);
for ii = 1:length(x)
fprintf('%d : %s\n', x(ii), xGroupName(ii));
end

H. K均值聚類法和系統聚類法有什麼區別,這兩種聚類方法的適用條件都是什麼

適用條件:系統聚類法適於二維有序樣品聚類的樣品個數比較均勻。K均值聚類法適用於快速高效,特別是大量數據時使用。

兩者區別如下:

一、指代不同

1、K均值聚類法:是一種迭代求解的聚類分析演算法。

2、系統聚類法:又叫分層聚類法,聚類分析的一種方法。

二、步驟不同

1、K均值聚類法:步驟是隨機選取K個對象作為初始的聚類中心,然後計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。

2、系統聚類法:開始時把每個樣品作為一類,然後把最靠近的樣品(即距離最小的群品)首先聚為小類,再將已聚合的小類按其類間距離再合並,不斷繼續下去,最後把一切子類都聚合到一個大類。


三、目的不同

1、K均值聚類法:終止條件可以是沒有(或最小數目)對象被重新分配給不同的聚類,沒有(或最小數目)聚類中心再發生變化,誤差平方和局部最小。

2、系統聚類法:是以距離為相似統計量時,確定新類與其他各類之間距離的方法,如最短距離法、最長距離法、中間距離法、重心法、群平均法、離差平方和法、歐氏距離等。


閱讀全文

與KMeans演算法循環終止條件有相關的資料

熱點內容
手游我的世界租的伺服器怎麼添加mod 瀏覽:552
java中的Ascii 瀏覽:497
php白盒測試工具 瀏覽:574
男人命令女人 瀏覽:166
全球編程語言排名 瀏覽:785
某百度程序員中午面試 瀏覽:614
程序員劉亦菲的樣子 瀏覽:303
java獲取伺服器的時間格式 瀏覽:69
什麼是java中的多態 瀏覽:330
html包含php文件 瀏覽:359
程序員睡覺少感覺不到困 瀏覽:921
空調壓縮機工作電壓 瀏覽:202
夢幻西遊浙江二區伺服器雲主機 瀏覽:250
什麼樣的人才叫程序員 瀏覽:125
ipad如何解壓縮文件下載 瀏覽:225
知網程序員 瀏覽:706
怎麼把電子版投標報價加密 瀏覽:33
電腦安全編譯器 瀏覽:369
在伺服器里如何調創造 瀏覽:839
知雲登錄為什麼找不到伺服器 瀏覽:819