dbscan演算法代碼_大數據分析之聚類演算法

1. dbscan演算法是什麼

DBSCAN基於高密度連通區域的、基於密度的聚類演算法，能夠將具有足夠高密度的區域劃分為簇，並在具有雜訊的數據中發現任意形狀的簇。我們總結一下DBSCAN聚類演算法原理的基本要點：

DBSCAN演算法需要選擇一種距離度量，對於待聚類的數據集中，任意兩個點之間的距離，反映了點之間的密度，說明了點與點是否能夠聚到同一類中。由於DBSCAN演算法對高維數據定義密度很困難，所以對於二維空間中的點，可以使用歐幾里德距離來進行度量。

(1)dbscan演算法代碼擴展閱讀：

dbscan個聚類以便使得所獲得的聚類滿足：同一聚類中的對象相似度較高；而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個「中心對象」（引力中心）來進行計算的。

（1）適當選擇c個類的初始中心；

（2）在第k次迭代中，對任意一個樣本，求其到c個中心的距離，將該樣本歸到距離最短的中心所在的類；

（3）利用均值等方法更新該類的中心值；

（4）對於所有的c個聚類中心，如果利用（2）（3）的迭代法更新後，值保持不變，則迭代結束，否則繼續迭代。

2. dbscan聚類演算法用什麼編程實現

演算法實現起來應該很容易，就不幫你編寫代碼了。什麼是 k-means 聚類演算法？從網上找到了很多定義，這里選取比較典型的幾個； K-Mean 分群法是一種

3. dbscan聚類演算法用什麼軟體實現

DBSCAN核心功能函數，計算每個point的eps范圍內的point數量pts；

對於所有pts >Minpts的point，記為Core point；
對於所有的corepoint，將其eps范圍內的core point下標添加到vector<int>::corepts中；
對於所有的corepoint，採用深度優先的方式遍歷core point的所有cluster，使得相互連接的core point具有相同的cluster編號；

4. 誰有遺傳聚類演算法程序代碼

1、JDK （java Development Kit）Java開發工具集

從初學者角度來看，採用JDK開發Java程序能夠很快理解程序中各部分代碼之間的關系，有利於理解Java面向對象的設計思想。JDK的另一個顯著特點是隨著Java （J2EE、J2SE以及J2ME）版本的升級而升級。但它的缺點也是非常明顯的就是從事大規模企業級Java應用開發非常困難，不能進行復雜的Java軟體開發，也不利於團體協同開發。

2、Java Workshop

3、NetBeans 與Sun Java Studio 5
4.Borland 的JBuilder jbuilder2006 JBuilder
或者直接用Editplus或者UltraEdit都可以
JBuilder啟動比較費CPU和內存，而且收費，還是全英文界面，不過用熟了還是很好用的。初學者先用Notepad(寫字板)，Ultraedit之類的簡單文本編輯器寫代碼，
用命令行下javac，java編譯執行程序。

明白了這種底層的東西後，再用Jcreator，eclipse啥的
JCreator是一個JAVA集成開發環境（IDE）。它為用戶提供了相當強大的功能，例如項目管理功能，項目模板功能，可個性化設置語法高亮屬性、行數、類瀏覽器、標簽文檔、多功能編繹器，向導功能以及完全可自定義的用戶界面。通過JCreator，你不用激活主文檔而直接編繹或運行你的JAVA程序。JCreator能自動找到包含主函數的文件或包含Applet的Html文件，然後它會運行適當的工具。在JCreator中，你可以通過一個批處理同時編繹多個項目。JCreator的設計接近Windows界面風格，用戶對它的界面比較熟悉。 UltraEdit初級用這一個，這一個比較好的．
你如果想開發比較高級的程序啦．．用Jbuilder吧．這一個地球人都知道的．應該是用什麼來編譯吧？要編寫的話當然是用JAVA語言了，編寫的平台的話就很多了，隨便到網上搜索就可能找到，記事本也可能用來編寫，編譯平台也很多，JDK是少不了，最簡單的就是JDK了，安裝好JDK，然後配置好系統參數JAV_HOME(值為JDK的安裝路徑)JDK_HOME(值為JDK的安裝路徑)還要配置CLASSPATH和PATH,這樣就可以用記事本編寫程序,在命令提示符下編譯了開始是先學習VB然後用JAVA語言就可以了 UltraEdit 如果不是企業級的開發，選用eclipse是非常不錯的，它是一個開源的軟體可以集成很多插件來幫助你寫java應用程序和客戶端程序。常見的十四種Java開發工具及其特點出處：JR
1、JDK （Java Development Kit）Java開發工具集

從初學者角度來看，採用JDK開發Java程序能夠很快理解程序中各部分代碼之間的關系，有利於理解Java面向對象的設計思想。JDK的另一個顯著特點是隨著Java （J2EE、J2SE以及J2ME）版本的升級而升級。但它的缺點也是非常明顯的就是從事大規模企業級Java應用開發非常困難，不能進行復雜的Java軟體開發，也不利於團體協同開發。

2、Java Workshop

3、NetBeans 與Sun Java Studio 5

NetBeans是開放源碼的Java集成開發環境(IDE)，適用於各種客戶機和Web應用。Sun Java Studio是Sun公司最新發布的商用全功能Java IDE，支持Solaris、Linux和Windows平台，適於創建和部署2層Java Web應用和n層J2EE應用的企業開發人員使用。

NetBeans是業界第一款支持創新型Java開發的開放源碼IDE。開發人員可以利用業界強大的開發工具來構建桌面、Web或移動應用。同時，通過NetBeans和開放的API的模塊化結構，第三方能夠非常輕松地擴展或集成NetBeans平台。

NetBeans3.5.1主要針對一般Java軟體的開發者，而Java One Studio5則主要針對企業做網路服務等應用的開發者。Sun不久還將推出Project Rave，其目標是幫助企業的開發者進行軟體開發。

NetBeans 3.5.1版本與其他開發工具相比，最大區別在於不僅能夠開發各種台式機上的應用，而且可以用來開發網路服務方面的應用，可以開發基於J2ME的移動設備上的應用等。在NetBeans 3.5.1基礎上，Sun開發出了Java One Studio5，為用戶提供了一個更加先進的企業編程環境。在新的Java One Studio5里有一個應用框架，開發者可以利用這些模塊快速開發自己在網路服務方面的各種應用程序。

4、Borland 的JBuilder

Jbuilder進入了Java集成開發環境的王國，它滿足很多方面的應用，尤其是對於伺服器方以及EJB開發者們來說。下面簡單介紹一下Jbuilder的特點:

1）Jbuilder支持最新的Java技術，包括Applets、JSP/Servlets、JavaBean以及EJB(Enterprise JavaBeans)的應用。

2）用戶可以自動地生成基於後端資料庫表的EJB Java類，Jbuilder同時還簡化了EJB的自動部署功能.此外它還支持CORBA，相應的向導程序有助於用戶全面地管理IDL(分布應用程序所必需的介面定義語言Interface Definition Language)和控制遠程對象。

3）Jbuilder支持各種應用伺服器。Jbuilder與Inprise Application Server緊密集成，同時支持WebLogic Server，支持EJB 1.1和EJB 2.0，可以快速開發J2EE的電子商務應用。

4）Jbuilder能用Servlet和JSP開發和調試動態Web 應用。

5）利用Jbuilder可創建(沒有專有代碼和標記)純Java2應用。由於Jbuilder是用純Java語言編寫的，其代碼不含任何專屬代碼和標記，它支持最新的Java標准。

6）Jbuilder擁有專業化的圖形調試介面，支持遠程調試和多線程調試，調試器支持各種JDK版本,包括J2ME/J2SE/J2EE。

JBuilder環境開發程序方便，它是純的Java 開發環境，適合企業的J2EE開發；缺點是往往一開始人們難於把握整個程序各部分之間的關系，對機器的硬體要求較高，比較吃內存，這時運行速度顯得較慢。

5、Oracle 的JDeveloper

Oracle9i JDeveloper（定為9.0版，最新為10g）為構建具有J2EE功能，XML和Web services的復雜的，多層的 Java應用程序提供了一個完全集成的開發環境。它為運用Oracle9i資料庫和應用伺服器的開發人員提供特殊的功能和增強性能，除此以外，它也有資格成為用於多種用途Java開發的一個強大的工具。

Oracle9i JDeveloper的主要特點如下：

① 具有UML（Unified Modeling Language，一體化建模語言）建模功能。可以將業務對象及e-business應用模型化。

② 配備有高速Java調試器（Debuger）、內置Profiling工具、提高代碼質量的工具「CodeCoach」等。

③ 支持SOAP（Simple Object Access Protocol）「簡單對象訪問協議」、UDDI （Universal Description, Discovery and Integration）「統一描述、發現和集成協議」、WSDL （Web Services Description Language）「WEB服務描述語言」等Web服務標准。

JDeveloper 不僅僅是很好的 Java 編程工具，而且是 Oracle Web 服務的延伸，支 Apache SOAP，以及 9iAS ，可擴充的環境和 XML 和 WSDL 語言緊密相關。Oracle9i Jdeveloper完全利用Java編寫，能夠與以前的 Oracle伺服器軟體以及其他廠商支持J2EE的應用伺服器產品相兼容，而且在設計時著重針對Oracle9i，能夠無縫化跨平台之間的應用開發，提供了業界第一個完整的、集成了J2EE和XML的開發環境，允許開發者快速開發可以通過Web、無線設備及語音界面訪問的Web服務和交易應用，以往只能通過將傳統Java編程技巧與最新模塊化方式結合到一個單一集成的開發環境中之後才能完成J2EE應用開發生命周期管理的事實，從根本上得到改變。缺點就是對於初學者來說，較復雜，也比較難。

6、IBM的Visual Age for Java

Visual Age for Java是一個非常成熟的開發工具，它的特性以於IT開發者和業余的Java編程人員來說都是非常用有用的。它提供對可視化編程的廣泛支持，支持利用CICS連接遺傳大型機應用，支持EJB的開發應用，支持與Websphere的集成開發，方便的bean創建和良好的快速應用開發(RAD)支持和無文件式的文件處理。

IBM為建設Web站點所推出的 WebSphere Studio Advanced Edition及其包含的Visua Age for Java Professional Edition軟體已全面轉向以Java為中心，這樣，Java開發人員對WebSphere全套工具的感覺或許會好了許多。Studio所提供的工具有：Web站點管理、快速開發 JDBC頁向導程序、HTML編輯器和HTML語法檢查等。這確實是個不錯的HTML站點頁面編輯環境。Studio和VisualAge集成度很高，菜單中提供了在兩種軟體包之間快速移動代碼的選項。這就讓使用 Studio的Web頁面設計人員和使用VisualAge的Java程序員可以相互交換文件、協同工作。

Visual Age for Java支持團隊開發，內置的代碼庫可以自動地根據用戶做出改動而修改程序代碼，這樣就可以很方便地將目前代碼和早期版本做出比較。與Visual Age緊密結合的Websphere Studio本身並不提供源代碼和版本管理的支持，它只是包含了一個內置文件鎖定系統, 當編輯項目的時候可以防止其他人對這些文件的錯誤修改，軟體還支持諸如Microsoft Visual SourceSafe這樣的第三方源代碼控制系統。Viual Age for Java完全面向對象的程序設計思想使得開發程序非常快速、高效。你可以不編寫任何代碼就可以設計出一個典型的應用程序框架。Visual Age for Java作為IBM電子商務解決方案其中產品之一，可以無縫地與其他IBM產品，如WebSphere、DB2融合, 迅速完成從設計、開發到部署應用的整個過程。

Visual Age for Java獨特的管理文件方式使其集成外部工具非常困難,你無法讓Visual Age for Java與其他工具一起聯合開發應用。

7、BEA 的 WebLogic Workshop

BEA WebLogic Workshop是一個統一、簡化、可擴展的開發環境，使所有的開發人員都能在 BEA WebLogic Enterprise Platform之上構建基於標準的企業級應用，從而提高了開發部門的生產力水平，加快了價值的實現。

WebLogic Workshop除了提供便捷的Web服務之外，它能夠用於創建更多種類的應用。作為整個 BEA WebLogic Platform的開發環境。不管是創建門戶應用、編寫工作流、還是創建Web應用，Workshop 8.1都可以幫助開發人員更快更好地完成。

WebLogic Workshop的主要特點如下：

① 使 J2EE 開發切實可行，提高開發效率

BEA WebLogic Workshop 使開發人員遠離 J2EE 內在的復雜性，集中精力專注業務邏輯，無須操心單調乏味的基礎結構代碼。這種創新意味著，已被企業驗證的 J2EE 的強大功能，最終被大多數不熟悉 Java 和 J2EE 的應用開發人員所掌握，從而使 IT 部門的工作效率提高一個數量級。

可視化設計器以及直觀的概念，如事件、屬性和控制項等，實現了基於事件的開發。Workshop 簡化的程序設計模型，使開發人員不必掌握復雜的 J2EE API 和面向對象的程序設計原理。所有開發人員，包括 J2EE 專家和具有可視化和過程化語言技能的應用開發人員在內，都可以共同工作在 BEA WebLogic Enterprise Platform 之上。Workshop 的可視化開發環境，創建帶有代碼注釋的標准 Java 文件，用來說明由運行時框架實施的企業級需求。J2EE 和其他高級開發人員，藉助功能強大的代碼編輯功能，可以訪問 Java 源代碼，從而彌補了可視化設計器的不足。

② 構建企業級應用

通過在可伸縮、安全可靠的企業級架構上實施各種應用，BEA WebLogic Workshop 大大降低了開發風險。而且，所有應用的創建都使用標準的 J2EE 組件，既保護了您的技術投資，又保持了最大的靈活性。 BEA WebLogic Workshop 運行框架，是統一整個架構的匯聚層，使單一、簡化的程序設
計模型擴展到所有的 BEA WebLogic Enterprise Platform 應用類型。通過解釋設計時創建的注釋代碼，運行時框架可以實現必要的 J2EE 組件，並且提取出與 J2EE 應用開發有關的所有底層細節。

③ 降低 IT 復雜性

BEA WebLogic Workshop 提供各種 Java 控制項，使得與 IT 資源的連接更輕而易舉。另外，在構建任何 BEA WebLogic Platform 的應用中，Java 控制項不僅可擴展而且完全相同。這種強大、有效的方法能夠：降低 IT 技術的復雜性，優化信息的可用性，推動包含"最佳業務方案"的可重用服務的開發，使開發人員能以更低的成本、更短的時間實現更大的產出。

利用 BEA WebLogic Workshop，任何開發人員都能以最大的生產效率，構建各種Web 服務、Web 應用、門戶和集成項目。 BEA WebLogic Workshop是BEA的產品戰略核心，它幫助客戶接觸和利用面向服務架構(SOA)的強大功能。 BEA Weblogic Workshop 8.1極大簡化了當前實際企業集成環境中企業級應用和服務的構建，並成為全面支持關鍵企業級應用(如非同步、真正松耦合和粗粒度消息傳送等)的自然選擇。它的缺點就是過於復雜，對於初學者來說，理解起來較為困難。

8、WebGain 的Visual Cafe for Java

Visual Cafe 是只能在Symantec公司的Java虛擬機、Netscape公司的Java虛擬機和Microsoft虛擬機上工作的調試器。這對於開發者來講是一個重要的特性,因為用戶開發的Java代碼中的許多軟體bug就可能中會在某種特定的虛擬機上起作用。

在修改後進行編譯基繼續進行調試時,Visual Cafe會自動將文件存檔，使用Visual Cafe創建的原生應用具有許多特點。除了明顯的速度提高之外,Symantec使類庫的二進制方式比正常的JDK小Visual Cafe為所指定的關系自動生成或更新必要的Java代碼。利用 Visual Cafe，用戶可以從一個標准對象資料庫中集合完整的Java應用程序和Applet，而不必再編寫源代碼。Visual Cafe還提供了一個擴充的源代碼開發工具集。

Visual Cafe綜合了Java軟體的可視化源程序開發工具，它允許開發人員在可視化視圖和源視圖之間進行有效地轉換。在可視化視圖中進行的修改立即反映在源代碼中。對源代碼的改變自動更新可視化視圖。

Visual Cafe具有許多源文件方面的特性，如全局檢索和替換。絕大多數Java開發工具的文獻的問題在於簡單地挨個介紹開發工具的每部分組件，但用戶在開應用時還需要一個面向任務的手冊，利用這個手冊你可以不必知道工具每一部分的特定功能就可以開始創建自己的應用。Visual Cafe提供了非常全面的用戶指南,它對最開始的安裝到創建第一個Java應用和Applet都提供了全面的幫助，Visual Cafe將自動生成所指明關系的必要 Java代碼。Visual Cafe可以在Windows 95和Windows NT平台下運行，Symantec公司為Java開發工作提供一個在 Macintosh操作系統下可以運行的RAD工具。Visual Cafe編譯器速度很快，在國際化支持方面比較突出；缺點就是對於初學者來說，較復雜，也比較難。

9、Macromedia的JRUN

Macromedia公司的JRun是一個具有最廣闊適用性的Java引擎，用於開發及實施由Java Servlets和JavaServer Pages編寫的伺服器端 Java應用。JRun是第一個完全支持JSP 1.0 規格書的商業化產品，全球有超過80,000名開發人員使用JRun在他們已有的Web伺服器上添加伺服器端Java的功能。其中Web伺服器包括了Microsoft IIS，Netscape Enterprise Server，Apache 等。

JRun是開發實施伺服器端Java的先進引擎。如果我們希望在我們的Web應用中添加伺服器端Java功能，那麼JRun將成為我們的正確選擇。

JRun目前有3個版本，它是第一個支持Java Server Pages(JSP)規格書1.0的商業化產品。JSP是一種強大的伺服器端技術，它是用於創建復雜Web應用的一整套快速應用開發系統。JRun可以使我們開始開發並測試Java應用。它最多接受5個並發的連接並且包括全部 Java Servlet API，支持JavaServer Pages(JSP)，支持所有主要的Web servers和計算機平台。 JRun Pro能夠在生產環境下承受大訪問量的負載，幫助我們實施應用、服務或Web站點（包括內聯網）。JRun Pro 支持無限量並發式連接運行多個Jav
a虛擬機，包括多個並發的Java虛擬機（JVM）。提供一個遠程管理applet以及一個遠程可再分布式的管理applet。JRun Pro Unlimited包括了所有JRun Pro的功能，除次以外，還可以運行無限量的，並發的JVM。

JRun依靠其內置的JRun Web Server可以單獨運行。使用伺服器端Java，用戶可以開發出復雜的商業應用系統。最重要的一點是，由於 servlets的平台獨立性，以及更加簡單的開發、更快速的實施、更經濟的維護成本，它是CGI(Common Gateway Interface) 或Perl scripts的極佳的替代產品。缺點就是對於初學者來說，較復雜，也比較難。

10、JCreator

JCreator 是一個Java程序開發工具，也是一個Java集成開發環境（IDE）。無論你是要開發Java應用程序或者網頁上的Applet元件都難不倒它。在功能上與Sun公司所公布的JDK等文字模式開發工具相較之下來得容易，還允許使用者自訂義操作窗口界面及無限Undo/Redo等功能。

JCreator為用戶提供了相當強大的功能，例如項目管理功能，項目模板功能，可個性化設置語法高亮屬性、行數、類瀏覽器、標簽文檔、多功能編繹器，向導功能以及完全可自定義的用戶界面。通過JCreator，我們不用激活主文檔而直接編繹或運行我們的JAVA程序。

JCreator能自動找到包含主函數的文件或包含Applet的Html文件，然後它會運行適當的工具。在JCreator中，我們可以通過一個批處理同時編繹多個項目。JCreator的設計接近Windows界面風格，用戶對它的界面比較熟悉。其最大特點是與我們機器中所裝的JDK完美結合，是其它任何一款IDE所不能比擬的。它是一種初學者很容易上手的java開發工具，缺點是只能進行簡單的程序開發，不能進行企業J2EE的開發應用。

還有的字太多，貼不上，請到下面的網址去看

http://www.javaresearch.org/article/showarticle.jsp?column=91&thread=24920 <br/><br/><font color=#0556A3>參考文獻：</font>http://www.javaresearch.org/ 我現在也在學.
建議是用JCreate
軟體小且適用於初寫者
JBuild9.0太大,機子的性能也要求很大. 我用日蝕

Eclipse 只要普通的文本編輯器就可以了，因為java文件本身是文本文檔，不過如果開發的話可以使用eclipse，jbuilder，intellJ IDEA，Netbeans，這些幫你把一些常用的工作都做了。 jdev 記事本＋jdk

5. 大數據分析之聚類演算法

大數據分析之聚類演算法
1. 什麼是聚類演算法
所謂聚類，就是比如給定一些元素或者對象，分散存儲在資料庫中，然後根據我們感興趣的對象屬性，對其進行聚集，同類的對象之間相似度高，不同類之間差異較大。最大特點就是事先不確定類別。
這其中最經典的演算法就是KMeans演算法，這是最常用的聚類演算法，主要思想是:在給定K值和K個初始類簇中心點的情況下，把每個點(亦即數據記錄)分到離其最近的類簇中心點所代表的類簇中，所有點分配完畢之後，根據一個類簇內的所有點重新計算該類簇的中心點(取平均值)，然後再迭代的進行分配點和更新類簇中心點的步驟，直至類簇中心點的變化很小，或者達到指定的迭代次數。
KMeans演算法本身思想比較簡單，但是合理的確定K值和K個初始類簇中心點對於聚類效果的好壞有很大的影響。
聚類演算法實現
假設對象集合為D，准備劃分為k個簇。
基本演算法步驟如下：
1、從D中隨機取k個元素，作為k個簇的各自的中心。
2、分別計算剩下的元素到k個簇中心的相異度，將這些元素分別劃歸到相異度最低的簇。
3、根據聚類結果，重新計算k個簇各自的中心，計算方法是取簇中所有元素各自維度的算術平均數。
4、將D中全部元素按照新的中心重新聚類。
5、重復第4步，直到聚類結果不再變化。
6、將結果輸出。

核心Java代碼如下：
/**
* 迭代計算每個點到各個中心點的距離，選擇最小距離將該點劃入到合適的分組聚類中，反復進行，直到
* 分組不再變化或者各個中心點不再變化為止。
* @return
*/
public List[] comput() {
List[] results = new ArrayList[k];//為k個分組，分別定義一個聚簇集合，未來放入元素。

boolean centerchange = true;//該變數存儲中心點是否發生變化
while (centerchange) {
iterCount++;//存儲迭代次數
centerchange = false;
for (int i = 0; i < k; i++) {
results[i] = new ArrayList<T>();
}
for (int i = 0; i < players.size(); i++) {
T p = players.get(i);
double[] dists = new double[k];
for (int j = 0; j < initPlayers.size(); j++) {
T initP = initPlayers.get(j);
/* 計算距離這里採用的公式是兩個對象相關屬性的平方和，最後求開方*/
double dist = distance(initP, p);
dists[j] = dist;
}

int dist_index = computOrder(dists);//計算該點到各個質心的距離的最小值，獲得下標
results[dist_index].add(p);//劃分到對應的分組。
}
/*
* 將點聚類之後，重新尋找每個簇的新的中心點，根據每個點的關注屬性的平均值確立新的質心。
*/
for (int i = 0; i < k; i++) {
T player_new = findNewCenter(results[i]);
System.out.println("第"+iterCount+"次迭代，中心點是："+player_new.toString());
T player_old = initPlayers.get(i);
if (!IsPlayerEqual(player_new, player_old)) {
centerchange = true;
initPlayers.set(i, player_new);
}

}

}

return results;
}
上面代碼是其中核心代碼，我們根據對象集合List和提前設定的k個聚集,最終完成聚類。我們測試一下，假設要測試根據NBA球員的場均得分情況，進行得分高中低的聚集，很簡單，高得分在一組，中等一組，低得分一組。
我們定義一個Player類，裡面有屬性goal，並錄入數據。並設定分組數目為k=3。
測試代碼如下:
List listPlayers = new ArrayList();
Player p1 = new Player();
p1.setName(「mrchi1」);
p1.setGoal(1);
p1.setAssists(8);
listPlayers.add(p1);

Player p2 = new Player();
p2.setName("mrchi2");
p2.setGoal(2);
listPlayers.add(p2);

Player p3 = new Player();
p3.setName("mrchi3");
p3.setGoal(3);
listPlayers.add(p3);
//其他對象定義此處略。製造幾個球員的對象即可。
Kmeans<Player> kmeans = new Kmeans<Player>(listPlayers, 3);
List<Player>[] results = kmeans.comput();
for (int i = 0; i < results.length; i++) {
System.out.println("類別" + (i + 1) + "聚集了以下球員：");
List<Player> list = results[i];
for (Player p : list) {
System.out.println(p.getName() + "--->" + p.getGoal()

}
}
演算法運行結果：

可以看出中心點經歷了四次迭代變化，最終分類結果也確實是相近得分的分到了一組。當然這種演算法有缺點，首先就是初始的k個中心點的確定非常重要，結果也有差異。可以選擇彼此距離盡可能遠的K個點，也可以先對數據用層次聚類演算法進行聚類，得到K個簇之後，從每個類簇中選擇一個點，該點可以是該類簇的中心點，或者是距離類簇中心點最近的那個點。

6. DBSCAN原理和演算法偽代碼，與kmeans，OPTICS區別

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）聚類演算法，它是一種基於高密度連通區域的、基於密度的聚類演算法，能夠將具有足夠高密度的區域劃分為簇，並在具有雜訊的數據中發現任意形狀的簇。我們總結一下DBSCAN聚類演算法原理的基本要點：
DBSCAN演算法需要選擇一種距離度量，對於待聚類的數據集中，任意兩個點之間的距離，反映了點之間的密度，說明了點與點是否能夠聚到同一類中。由於DBSCAN演算法對高維數據定義密度很困難，所以對於二維空間中的點，可以使用歐幾里德距離來進行度量。
DBSCAN演算法需要用戶輸入2個參數：一個參數是半徑（Eps），表示以給定點P為中心的圓形鄰域的范圍；另一個參數是以點P為中心的鄰域內最少點的數量（MinPts）。如果滿足：以點P為中心、半徑為Eps的鄰域內的點的個數不少於MinPts，則稱點P為核心點。
DBSCAN聚類使用到一個k-距離的概念，k-距離是指：給定數據集P={p(i); i=0,1,…n}，對於任意點P(i)，計算點P(i)到集合D的子集S={p(1), p(2), …, p(i-1), p(i+1), …, p(n)}中所有點之間的距離，距離按照從小到大的順序排序，假設排序後的距離集合為D={d(1), d(2), …, d(k-1), d(k), d(k+1), …,d(n)}，則d(k)就被稱為k-距離。也就是說，k-距離是點p(i)到所有點（除了p(i)點）之間距離第k近的距離。對待聚類集合中每個點p(i)都計算k-距離，最後得到所有點的k-距離集合E={e(1), e(2), …, e(n)}。
根據經驗計算半徑Eps：根據得到的所有點的k-距離集合E，對集合E進行升序排序後得到k-距離集合E』，需要擬合一條排序後的E』集合中k-距離的變化曲線圖，然後繪出曲線，通過觀察，將急劇發生變化的位置所對應的k-距離的值，確定為半徑Eps的值。
根據經驗計算最少點的數量MinPts：確定MinPts的大小，實際上也是確定k-距離中k的值，DBSCAN演算法取k=4，則MinPts=4。
另外，如果覺得經驗值聚類的結果不滿意，可以適當調整Eps和MinPts的值，經過多次迭代計算對比，選擇最合適的參數值。可以看出，如果MinPts不變，Eps取得值過大，會導致大多數點都聚到同一個簇中，Eps過小，會導致已一個簇的分裂；如果Eps不變，MinPts的值取得過大，會導致同一個簇中點被標記為雜訊點，MinPts過小，會導致發現大量的核心點。
我們需要知道的是，DBSCAN演算法，需要輸入2個參數，這兩個參數的計算都來自經驗知識。半徑Eps的計算依賴於計算k-距離，DBSCAN取k=4，也就是設置MinPts=4，然後需要根據k-距離曲線，根據經驗觀察找到合適的半徑Eps的值，下面的演算法實現過程中，我們會詳細說明。對於演算法的實現，首先我們概要地描述一下實現的過程：
1）解析樣本數據文件。2）計算每個點與其他所有點之間的歐幾里德距離。3）計算每個點的k-距離值，並對所有點的k-距離集合進行升序排序，輸出的排序後的k-距離值。4）將所有點的k-距離值，在Excel中用散點圖顯示k-距離變化趨勢。5）根據散點圖確定半徑Eps的值。）根據給定MinPts=4，以及半徑Eps的值，計算所有核心點，並建立核心點與到核心點距離小於半徑Eps的點的映射。7）根據得到的核心點集合，以及半徑Eps的值，計算能夠連通的核心點，得到雜訊點。8）將能夠連通的每一組核心點，以及到核心點距離小於半徑Eps的點，都放到一起，形成一個簇。9）選擇不同的半徑Eps，使用DBSCAN演算法聚類得到的一組簇及其雜訊點，使用散點圖對比聚類效果。
演算法偽代碼：
演算法描述：
演算法：DBSCAN
輸入：E——半徑
MinPts——給定點在E鄰域內成為核心對象的最小鄰域點數。
D——集合。
輸出：目標類簇集合
方法：Repeat
1）判斷輸入點是否為核心對象
2）找出核心對象的E鄰域中的所有直接密度可達點。
Until 所有輸入點都判斷完畢。
Repeat
針對所有核心對象的E鄰域內所有直接密度可達點找到最大密度相連對象集合，中間涉及到一些密度可達對象的合並。Until 所有核心對象的E領域都遍歷完畢
DBSCAN和Kmeans的區別：
1)K均值和DBSCAN都是將每個對象指派到單個簇的劃分聚類演算法，但是K均值一般聚類所有對象，而DBSCAN丟棄被它識別為雜訊的對象。
2)K均值使用簇的基於原型的概念，而DBSCAN使用基於密度的概念。
3)K均值很難處理非球形的簇和不同大小的簇。DBSCAN可以處理不同大小或形狀的簇，並且不太受雜訊和離群點的影響。當簇具有很不相同的密度時，兩種演算法的性能都很差。
4)K均值只能用於具有明確定義的質心（比如均值或中位數）的數據。DBSCAN要求密度定義（基於傳統的歐幾里得密度概念）對於數據是有意義的。
5)K均值可以用於稀疏的高維數據，如文檔數據。DBSCAN通常在這類數據上的性能很差，因為對於高維數據，傳統的歐幾里得密度定義不能很好處理它們。
6)K均值和DBSCAN的最初版本都是針對歐幾里得數據設計的，但是它們都被擴展，以便處理其他類型的數據。
7)基本K均值演算法等價於一種統計聚類方法（混合模型），假定所有的簇都來自球形高斯分布，具有不同的均值，但具有相同的協方差矩陣。DBSCAN不對數據的分布做任何假定。
8)K均值DBSCAN和都尋找使用所有屬性的簇，即它們都不尋找可能只涉及某個屬性子集的簇。
9)K均值可以發現不是明顯分離的簇，即便簇有重疊也可以發現，但是DBSCAN會合並有重疊的簇。
10)K均值演算法的時間復雜度是O(m)，而DBSCAN的時間復雜度是O(m^2)，除非用於諸如低維歐幾里得數據這樣的特殊情況。
11)DBSCAN多次運行產生相同的結果，而K均值通常使用隨機初始化質心，不會產生相同的結果。
12)DBSCAN自動地確定簇個數，對於K均值，簇個數需要作為參數指定。然而，DBSCAN必須指定另外兩個參數：Eps（鄰域半徑）和MinPts（最少點數）。
13)K均值聚類可以看作優化問題，即最小化每個點到最近質心的誤差平方和，並且可以看作一種統計聚類（混合模型）的特例。DBSCAN不基於任何形式化模型。
DBSCAN與OPTICS的區別：
DBSCAN演算法，有兩個初始參數E（鄰域半徑）和minPts(E鄰域最小點數)需要用戶手動設置輸入，並且聚類的類簇結果對這兩個參數的取值非常敏感，不同的取值將產生不同的聚類結果，其實這也是大多數其他需要初始化參數聚類演算法的弊端。
為了克服DBSCAN演算法這一缺點，提出了OPTICS演算法（Ordering Points to identify the clustering structure）。OPTICS並不顯示的產生結果類簇，而是為聚類分析生成一個增廣的簇排序（比如，以可達距離為縱軸，樣本點輸出次序為橫軸的坐標圖），這個排序代表了各樣本點基於密度的聚類結構。它包含的信息等價於從一個廣泛的參數設置所獲得的基於密度的聚類，換句話說，從這個排序中可以得到基於任何參數E和minPts的DBSCAN演算法的聚類結果。
OPTICS兩個概念：
核心距離：對象p的核心距離是指是p成為核心對象的最小E』。如果p不是核心對象，那麼p的核心距離沒有任何意義。
可達距離：對象q到對象p的可達距離是指p的核心距離和p與q之間歐幾里得距離之間的較大值。如果p不是核心對象，p和q之間的可達距離沒有意義。
演算法描述：OPTICS演算法額外存儲了每個對象的核心距離和可達距離。基於OPTICS產生的排序信息來提取類簇。

7. DBSCAN原理是怎麼樣的

8. dbscan聚類演算法是什麼

DBSCAN是基於密度空間的聚類演算法，與KMeans演算法不同，它不需要確定聚類的數量，而是基於數據推測聚類的數目，它能夠針對任意形狀產生聚類。

DBSCAN使用的方法很簡單，它任意選擇一個沒有類別的核心對象作為種子，然後找到所有這個核心對象能夠密度可達的樣本集合，即為一個聚類簇。接著繼續選擇另一個沒有類別的核心對象去尋找密度可達的樣本集合，這樣就得到另一個聚類簇。

DBSCAN演算法需要首先確定兩個參數：

1、epsilon：在一個點周圍鄰近區域的半徑。

2、minPts：鄰近區域內至少包含點的個數。

通常根據以上兩個參數，結合epsilon-neighborhood的特徵，可以把樣本中的點分成核點、邊緣點、離群點三類。

9. 解讀數據挖掘DBSCAN聚類演算法。。。。。

。。。。。。
建議LZ去CSDN、VC驛站、程序員網看看吧

導航:首頁 > 源碼編譯 > dbscan演算法代碼

dbscan演算法代碼

與dbscan演算法代碼相關的資料