kmeans聚類演算法java_k-means聚類演算法的java代碼實現文本聚類

『壹』利用java 演算法進行聚類，聚類的結果存儲在哪

K-MEANS演算法: k-means 演算法接受輸入量 k ；然後將n個數據對象劃分為 k個聚類以便使得所獲得的聚類滿足：同一聚類中的對象相似度較高；而不同聚類中的對象相似度較校聚類相似度是利用各聚類中對象的均值所獲得一個「中心對象」

『貳』 java出現outofmemoryerror的原因有哪些

第一種OutOfMemoryError： PermGen space
發生這種問題的原意是程序中使用了大量的jar或class，使java虛擬機裝載類的空間不夠，與Permanent Generation space有關。解決這類問題有以下兩種辦法：
1. 增加java虛擬機中的XX:PermSize和XX:MaxPermSize參數的大小，其中XX:PermSize是初始永久保存區域大小，XX:MaxPermSize是最大永久保存區域大小。如針對tomcat6.0，在catalina.sh 或catalina.bat文件中一系列環境變數名說明結束處（大約在70行左右）增加一行：
JAVA_OPTS=" -XX:PermSize=64M -XX:MaxPermSize=128m"
如果是windows伺服器還可以在系統環境變數中設置。感覺用tomcat發布sprint+struts+hibernate架構的程序時很容易發生這種內存溢出錯誤。使用上述方法，我成功解決了部署ssh項目的tomcat伺服器經常宕機的問題。
2. 清理應用程序中web-inf/lib下的jar，如果tomcat部署了多個應用，很多應用都使用了相同的jar，可以將共同的jar移到tomcat共同的lib下，減少類的重復載入。這種方法是網上部分人推薦的，我沒試過，但感覺減少不了太大的空間，最靠譜的還是第一種方法。

第二種OutOfMemoryError： Java heap space
發生這種問題的原因是java虛擬機創建的對象太多，在進行垃圾回收之間，虛擬機分配的到堆內存空間已經用滿了，與Heap space有關。解決這類問題有兩種思路：
1. 檢查程序，看是否有死循環或不必要地重復創建大量對象。找到原因後，修改程序和演算法。
我以前寫一個使用K-Means文本聚類演算法對幾萬條文本記錄（每條記錄的特徵向量大約10來個）進行文本聚類時，由於程序細節上有問題，就導致了Java heap space的內存溢出問題，後來通過修改程序得到了解決。
2. 增加Java虛擬機中Xms（初始堆大小）和Xmx（最大堆大小）參數的大小。如：set JAVA_OPTS= -Xms256m -Xmx1024m

第三種OutOfMemoryError：unable to create new native thread
這種錯誤在Java線程個數很多的情況下容易發生，我暫時還沒遇到過，發生原意和解決辦法可以參考：http://hi..com/hexiong/blog/item/16dc9e518fb10c2542a75b3c.html

『叄』聚類演算法K-means演算法實現的Java源代碼數據是文件讀入的，跪求!!!!

不會用跟我說，我自己寫的，親測可用

『肆』聚類演算法，K-means演算法的Java代碼實現

這得分詞+vsm+k-means啊。k-means演算法網上應該不少，但是對文檔的話，還得進行分詞，構建矢量空間模型才能進行聚類啊。

『伍』 k-means聚類演算法的java代碼實現文本聚類

K-MEANS演算法:
k-means 演算法接受輸入量 k ；然後將n個數據對象劃分為 k個聚類以便使得所獲得的聚類滿足：同一聚類中的對象相似度較高；而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個「中心對象」（引力中心）來進行計算的。

k-means 演算法的工作過程說明如下：首先從n個數據對象任意選擇 k 個對象作為初始聚類中心；而對於所剩下其它對象，則根據它們與這些聚類中心的相似度（距離），分別將它們分配給與其最相似的（聚類中心所代表的）聚類；然後再計算每個所獲新聚類的聚類中心（該聚類中所有對象的均值）；不斷重復這一過程直到標准測度函數開始收斂為止。一般都採用均方差作為標准測度函數. k個聚類具有以下特點：各聚類本身盡可能的緊湊，而各聚類之間盡可能的分開。

具體如下：
輸入：k, data[n];
（1）選擇k個初始中心點，例如c[0]=data[0],…c[k-1]=data[k-1];
（2）對於data[0]….data[n], 分別與c[0]…c[n-1]比較，假定與c[i]差值最少，就標記為i;
（3）對於所有標記為i點，重新計算c[i]=/標記為i的個數；
（4）重復(2)(3),直到所有c[i]值的變化小於給定閾值。

演算法實現起來應該很容易，就不幫你編寫代碼了。

『陸』聚類演算法，K-means演算法的Java代碼實現

有郵箱嗎~我發給你

『柒』 Java內存溢出主要有哪些類型

主要有三種類型
第一種OutOfMemoryError： PermGen space
發生這種問題的原意是程序中使用了大量的jar或class，使java虛擬機裝載類的空間不夠，與Permanent Generation space有關。解決這類問題有以下兩種辦法：
1. 增加java虛擬機中的XX:PermSize和XX:MaxPermSize參數的大小，其中XX:PermSize是初始永久保存區域大小，XX:MaxPermSize是最大永久保存區域大小。如針對tomcat6.0，在catalina.sh 或catalina.bat文件中一系列環境變數名說明結束處（大約在70行左右）增加一行：
JAVA_OPTS=" -XX:PermSize=64M -XX:MaxPermSize=128m"
如果是windows伺服器還可以在系統環境變數中設置。感覺用tomcat發布sprint+struts+hibernate架構的程序時很容易發生這種內存溢出錯誤。使用上述方法，我成功解決了部署ssh項目的tomcat伺服器經常宕機的問題。
2. 清理應用程序中web-inf/lib下的jar，如果tomcat部署了多個應用，很多應用都使用了相同的jar，可以將共同的jar移到tomcat共同的lib下，減少類的重復載入。

第二種OutOfMemoryError： Java heap space
發生這種問題的原因是java虛擬機創建的對象太多，在進行垃圾回收之間，虛擬機分配的到堆內存空間已經用滿了，與Heap space有關。解決這類問題有兩種思路：
1. 檢查程序，看是否有死循環或不必要地重復創建大量對象。找到原因後，修改程序和演算法。
我以前寫一個使用K-Means文本聚類演算法對幾萬條文本記錄（每條記錄的特徵向量大約10來個）進行文本聚類時，由於程序細節上有問題，就導致了Java heap space的內存溢出問題，後來通過修改程序得到了解決。
2. 增加Java虛擬機中Xms（初始堆大小）和Xmx（最大堆大小）參數的大小。如：set JAVA_OPTS= -Xms256m -Xmx1024m

第三種OutOfMemoryError：unable to create new native thread
這種錯誤在Java線程個數很多的情況下容易發生

『捌』用JAVA實現錄入一個txt文檔，並且將文檔轉換成矩陣或數組，得到文本距離用以使用K-MEANS演算法進行聚類分析

您好，詮釋imgW img.getWidth（）;
imgH = img.getHeight（）;
INT [] RGBData =新的int [imgW * imgH];
img.getRGB（RGBData，imgW，0,0，imgW，imgH）;
TMP =（255 << 24）| 0x00444444;
（INT I = 0;我RGBData.length，我+ +）
{
RGBData [I] = tmp目錄;
}
圖片o_Img = Image.createRGBImage（RGBData，imgW，imgH， TRUE）;得到處理後的圖像

現在用圖片半透明的，未經測試。

『玖』 k-means演算法怎麼為對稱矩陣進行聚類

幾種典型的聚類融合演算法：
1.基於超圖劃分的聚類融合演算法
(1)Cluster-based Similarity Partitioning Algorithm(GSPA)
(2)Hyper Graph-Partitioning Algorithm(HGPA)
(3)Meta-Clustering Algorithm(MCLA)
2.基於關聯矩陣的聚類融合演算法
Voting-K-Means演算法。
3.基於投票策略的聚類融合演算法
w-vote是一種典型的基於加權投票的聚類融合演算法。
同時還有基於互信息的聚類融合演算法和基於有限混合模型的聚類融合演算法。
二、基於關聯矩陣的聚類融合演算法——Voting-K-Means演算法
Voting-K-Means演算法是一種基於關聯矩陣的聚類融合演算法，關聯矩陣的每一行和每一列代表一個數據點，關聯矩陣的元素表示數據集中數據點對共同出現在同一個簇中的概率。
演算法過程：
1.在一個數據集上得到若干個聚類成員；
2.依次掃描這些聚類成員，如果數據點i和j在某個聚類成員中被劃分到同一個簇中，那麼就在關聯矩陣對應的位置計數加1；關聯矩陣中的元素值越大，說明該元素對應的兩個數據點被劃分到同一個簇中的概率越大；
3.得到關聯矩陣之後，Voting-K-Means演算法依次檢查關聯矩陣中的每個元素，如果它的值大於演算法預先設定的閥值，就把這個元素對應的兩個數據點劃分到同一個簇中。

Voting-K-Means演算法的優缺點：
Voting-K-Means演算法不需要設置任何參數，在聚類融合的過程中可以自動地的選擇簇的個數並且可以處理任意形狀的簇。因為Voting-K-Means演算法在聚類融合過程中是根據兩個數據點共同出現在同一個簇中的可能性大小對它們進行劃分的，所以只要兩個數據點距離足夠近，它們就會被劃分到一個簇中。
Voting-K-Means演算法的缺點是時間復雜度較高，它的時間復雜度是O(n^2);需要較多的聚類成員，如果聚類成員達不到一定規模，那麼關聯矩陣就不能准確反映出兩個數據點出現在同一個簇的概率。

package clustering;import java.io.FileWriter;import weka.clusterers.ClusterEvaluation;import weka.clusterers.SimpleKMeans;import weka.core.DistanceFunction;import weka.core.EuclideanDistance;import weka.core.Instances;import weka.core.converters.ConverterUtils.DataSource;import weka.filters.unsupervised.attribute.Remove;public class Votingkmeans2 extends SimpleKMeans { /** 生成的序列號 */ private static final long serialVersionUID = 1557181390469997876L; /** 劃分的簇數 */ private int m_NumClusters; /** 每個劃分的簇中的實例的數量 */ public int[] m_ClusterSizes; /** 使用的距離函數，這里是歐幾里德距離 */ protected DistanceFunction m_DistanceFunction = new EuclideanDistance(); /** 實例的簇號賦值 */ protected int[] m_Assignments; /** 設定聚類成員融合閥值 */ private final static double THREASOD = 0.5; /** 生成一個聚類器 */ public void buildClusterer(Instances data) throws Exception{ final int numinst = data.numInstances(); // 數據集的大小 double [][]association = new double[numinst][numinst]; // 定義並初始化一個關聯矩陣 int numIteration = 40; // 設置生成的聚類成員數 final int k = (int)Math.sqrt(numinst); // 設置K-Means聚類演算法參數——簇數 for(int i = 0; i < numIteration; i++) { if(data.classIndex() == -1) data.setClassIndex(data.numAttributes() - 1); // 索引是從0開始 String[] filteroption = new String[2]; filteroption[0] = "-R"; filteroption[1] = String.valueOf(data.classIndex() + 1);// 索引是從1開始 Remove remove = new Remove(); remove.setOptions(filteroption); remove.setInputFormat(data); /* 使用過濾器模式生成新的數據集；新數據集是去掉類標簽之後的數據集 */ Instances newdata = weka.filters.Filter.useFilter(data, remove); /* 生成一個K-Means聚類器 */ SimpleKMeans sm = new SimpleKMeans(); sm.setNumClusters(k); sm.setPreserveInstancesOrder(true); // 保持數據集實例的原始順序 sm.setSeed(i); // 通過設置不同的種子，設置不同的簇初始中心點，從而得到不同的聚類結果 sm.buildClusterer(newdata); int[] assigm = sm.getAssignments(); // 得到數據集各個實例的賦值 /* 建立關聯矩陣 */ for(int j = 0; j < numinst; j++) { for(int m = j; m < numinst; m++) { if(assigm[j] == assigm[m]) { association[j][m] = association[j][m] + 1.0 / numIteration ; } } } } System.out.println(); /* 將生成的關聯矩陣寫入.txt文件（註：生成的txt文本文件在e:/result.txt中） */ FileWriter fw = new FileWriter("e://result.txt"); for(int j = 0; j < numinst; j++) { for(int m = j; m < numinst; m++) { //由於關聯矩陣是對稱的，為了改進演算法的效率，只計算矩陣的上三角 String number = String.format("%8.2f", association[j][m]); fw.write(number); } fw.write("\n"); } /* 處理關聯矩陣，分別考慮了兩種情況：1.關聯矩陣中某個元素對應的兩個數據點已經被劃分到了不同的簇中 * 2.兩個數據點中有一個或者兩個都沒有被劃分到某個簇中。 */ int[] flag = new int[numinst]; int[] flagk = new int[k]; int[] finallabel = new int[numinst]; for(int m = 0; m < numinst; m++) { for(int n = m; n < numinst; n++) { if(association[m][n] > THREASOD) { if(flag[m] == 0 && flag[n] == 0) { // 兩個數據點都沒有被劃分到某個簇中， int i = 0; // 將他們劃分到同一個簇中即可 while (i < k && flagk[i] == 1) i = i + 1; finallabel[m] = i; finallabel[n] = i; flag[m] = 1; flag[n] = 1; flagk[i] = 1; } else if (flag[m] == 0 && flag[n] == 1) { // 兩個數據點中有一個沒有被劃分到某個簇中， finallabel[m] = finallabel[n]; // 將他們劃分到同一個簇中即可 flag[m] = 1; } else if (flag[m] == 1 && flag[n] == 0) { finallabel[n] = finallabel[m]; flag[n] = 1; } else if (flag[m] == 1 && flag[n] == 1 && finallabel[m] != finallabel[n]) { // 兩個數據點已被劃分到了不同的簇中， flagk[finallabel[n]] = 0; // 將它們所在的簇合並 int temp = finallabel[n]; for(int i = 0; i < numinst; i++) { if(finallabel[i] == temp) finallabel[i] = finallabel[m]; } } } } } m_Assignments = new int[numinst]; System.out.println("基於關聯矩陣的聚類融合演算法——Voting-K-Means演算法的最終聚類結果"); for(int i = 0; i < numinst; i++) { m_Assignments[i] = finallabel[i]; System.out.print(finallabel[i] + " "); if((i+1) % 50 == 0) System.out.println(); } for(int i = 0; i < k; i++) { if(flagk[i] == 1) m_NumClusters++; } } /** * return a string describing this clusterer * * @return a description of the clusterer as a string */ public String toString() { return "Voting-KMeans\n"; } public static void main(String []args) { try {String filename="e://weka-data//iris.arff"; Instances data = DataSource.read(filename); Votingkmeans2 vk = new Votingkmeans2(); vk.buildClusterer(data); /* 要生成Voting-K-Means的聚類評估結果包括准確率等需要覆蓋重寫toString()方法； * 因為沒有覆蓋重寫，所以這里生產的評估結果沒有具體內容。 */ ClusterEvaluation eval = new ClusterEvaluation(); eval.setClusterer(vk); eval.evaluateClusterer(new Instances(data)); System.out.println(eval.clusterResultsToString()); } catch (Exception e) { e.printStackTrace(); }}}

分析代碼時注意：得到的類成員變數m_Assignments就是最終Voting-K-Means聚類結果；由於是採用了開源機器學習軟體Weka中實現的SimpleKMeans聚類演算法，初始時要指定簇的個數，這里是數據集大小開根號向下取整；指定的閥值為0.5，即當關聯矩陣元素的值大於閥值時，才對該元素對應的兩個數據點進行融合，劃分到一個簇中，考慮兩種情況，代碼注釋已有，這里不再詳述。但聚類融合的實驗結果並不理想，鶯尾花數據集irsi.arff是數據挖掘實驗中最常用的數據集，原數據集共有三個類；但本實驗進行四十個聚類成員的融合，其最終聚類結果劃分成兩個簇；其原因可能有兩個：一是演算法本身的問題，需要使用其他更加優化的聚類融合演算法；二是實現上的問題，主要就在聚類結果的融合上，需要進行一步對照關聯矩陣進行邏輯上的分析，找出代碼中的問題。關聯矩陣文本文件http://download.csdn.net/detail/lhkaikai/7294323

---------------------

本文來自 Turingkk 的CSDN 博客，全文地址請點擊：https://blog.csdn.net/lhkaikai/article/details/25004823?utm_source=

導航:首頁 > 源碼編譯 > kmeans聚類演算法java

kmeans聚類演算法java

與kmeans聚類演算法java相關的資料