導航:首頁 > 源碼編譯 > 分類演算法知乎

分類演算法知乎

發布時間:2022-08-04 05:25:33

⑴ 分類和聚類的區別及各自的常見演算法

1、分類和聚類的區別:
Classification (分類),對於一個classifier,通常需要你告訴它「這個東西被分為某某類」這樣一些例子,理想情況下,一個 classifier 會從它得到的訓練集中進行「學習」,從而具備對未知數據進行分類的能力,這種提供訓練數據的過程通常叫做supervised learning (監督學習),
Clustering (聚類),簡單地說就是把相似的東西分到一組,聚類的時候,我們並不關心某一類是什麼,我們需要實現的目標只是把相似的東西聚到一起。因此,一個聚類演算法通常只需要知道如何計算相似度就可以開始工作了,因此 clustering 通常並不需要使用訓練數據進行學習,這在Machine Learning中被稱作unsupervised learning (無監督學習).
2、常見的分類與聚類演算法
所謂分類,簡單來說,就是根據文本的特徵或屬性,劃分到已有的類別中。如在自然語言處理NLP中,我們經常提到的文本分類便就是一個分類問題,一般的模式分類方法都可用於文本分類研究。常用的分類演算法包括:決策樹分類法,樸素貝葉斯分類演算法(native Bayesian classifier)、基於支持向量機(SVM)的分類器,神經網路法,k-最近鄰法(k-nearestneighbor,kNN),模糊分類法等等。
分類作為一種監督學習方法,要求必須事先明確知道各個類別的信息,並且斷言所有待分類項都有一個類別與之對應。但是很多時候上述條件得不到滿足,尤其是在處理海量數據的時候,如果通過預處理使得數據滿足分類演算法的要求,則代價非常大,這時候可以考慮使用聚類演算法。
而K均值(K-mensclustering)聚類則是最典型的聚類演算法(當然,除此之外,還有很多諸如屬於劃分法K中心點(K-MEDOIDS)演算法、CLARANS演算法;屬於層次法的BIRCH演算法、CURE演算法、CHAMELEON演算法等;基於密度的方法:DBSCAN演算法、OPTICS演算法、DENCLUE演算法等;基於網格的方法:STING演算法、CLIQUE演算法、WAVE-CLUSTER演算法;基於模型的方法)。

⑵ 常見的分類演算法有哪些

問題應該描述仔細些,呵呵,這樣就能幫你回答得更適當了

⑶ 分演算法是什麼

分類演算法是在數學和計算機科學之中,演算法為一個計算的具體步驟,常用於計算、數據處理和自動推理。

精確而言,演算法是一個表示為有限長列表的有效方法。演算法應包含清晰定義的指令用於計算函數,演算法分類可以根據演算法設計原理、演算法的具體應用和其他一些特性進行分類。

具體意義:

如果一個演算法有缺陷,或不適合於某個問題,執行這個演算法將不會解決這個問題。不同的演算法可能用不同的時間、空間或效率來完成同樣的任務。一個演算法的優劣可以用空間復雜度與時間復雜度來衡量。

演算法中的指令描述的是一個計算,當其運行時能從一個初始狀態和(可能為空的)初始輸入開始,經過一系列有限而清晰定義的狀態,最終產生輸出並停止於一個終態。一個狀態到另一個狀態的轉移不一定是確定的。隨機化演算法在內的一些演算法,包含了一些隨機輸入。

⑷ 用於數據挖掘的分類演算法有哪些,各有何優劣

常見的機器學習分類演算法就有,不常見的更是數不勝數,那麼我們針對某個分類問題怎麼來選擇比較好的分類演算法呢?下面介紹一些演算法的優缺點:

1. 樸素貝葉斯
比較簡單的演算法,所需估計的參數很少,對缺失數據不太敏感。如果條件獨立性假設成立,即各特徵之間相互獨立,樸素貝葉斯分類器將會比判別模型,如邏輯回歸收斂得更快,因此只需要較少的訓練數據。就算該假設不成立,樸素貝葉斯分類器在實踐中仍然有著不俗的表現。如果你需要的是快速簡單並且表現出色,這將是個不錯的選擇。其主要缺點現實生活中特徵之間相互獨立的條件比較難以實現。

2. 邏輯回歸
模型訓練時,正則化方法較多,而且你不必像在用樸素貝葉斯那樣擔心你的特徵是否相關。與決策樹與支持向量機相比,邏輯回歸模型還會得到一個不錯的概率解釋,你甚至可以輕松地利用新數據來更新模型(使用在線梯度下降演算法)。如果你需要一個概率架構(比如簡單地調節分類閾值,指明不確定性,獲得置信區間),或者你以後想將更多的訓練數據快速整合到模型中去,邏輯回歸是一個不錯的選擇。

3. 決策樹
決策樹的分類過程易於解釋說明。它可以毫無壓力地處理特徵間的交互關系並且是非參數化的,因此你不必擔心異常值或者數據是否線性可分。它的一個缺點就是不支持在線學習,於是在新樣本到來後,決策樹需要全部重建。另一個缺點是容易過擬合,但這也就是諸如隨機森林(或提升樹)之類的集成方法的切入點。另外,隨機森林經常是多分類問題的贏家(通常比支持向量機好上那麼一點),它快速並且可調,同時你無須擔心要像支持向量機那樣調一大堆參數,所以隨機森林相當受歡迎。

4. 支持向量機
高准確率,為避免過擬合提供了很好的理論保證,而且就算數據在原特徵空間線性不可分,只要給個合適的核函數,它就能運行得很好。在超高維的文本分類問題中特別受歡迎。可惜內存消耗大,難以解釋,運行和調參也有些煩人,所以我認為隨機森林要開始取而代之了。

但是,好的數據卻要優於好的演算法,設計優良特徵比優良的演算法好很多。假如你有一個超大數據集,那麼無論你使用哪種演算法可能對分類性能都沒太大影響(此時就根據速度和易用性來進行抉擇)。
如果你真心在乎准確率,你一定得嘗試多種多樣的分類器,並且通過交叉驗證選擇最優。

⑸ 常見的分類演算法有哪些

決策樹 貝葉斯 人工神經網路 k-近鄰 支持向量機 基於關聯規則的分類 集成學習

⑹ 常見的分類方法

主要分類方法介紹解決分類問題的方法很多[40-42] ,單一的分類方法主要包括:決策樹、貝葉斯、人工神經網路、K-近鄰、支持向量機和基於關聯規則的分類等;另外還有用於組合單一分類方法的集成學習演算法,如Bagging和Boosting等。

(1)決策樹

決策樹是用於分類和預測的主要技術之一,決策樹學習是以實例為基礎的歸納學習演算法,它著眼於從一組無次序、無規則的實例中推理出以決策樹表示的分類規則。構造決策樹的目的是找出屬性和類別間的關系,用它來預測將來未知類別的記錄的類別。它採用自頂向下的遞歸方式,在決策樹的內部節點進行屬性的比較,並根據不同屬性值判斷從該節點向下的分支,在決策樹的葉節點得到結論。

主要的決策樹演算法有ID3、C4.5(C5.0)、CART、PUBLIC、SLIQ和SPRINT演算法等。它們在選擇測試屬性採用的技術、生成的決策樹的結構、剪枝的方法以及時刻,能否處理大數據集等方面都有各自的不同之處。

(2)貝葉斯

貝葉斯(Bayes)分類演算法是一類利用概率統計知識進行分類的演算法,如樸素貝葉斯(Naive

Bayes)演算法。這些演算法主要利用Bayes定理來預測一個未知類別的樣本屬於各個類別的可能性,選擇其中可能性最大的一個類別作為該樣本的最終類別。由於貝葉斯定理的成立本身需要一個很強的條件獨立性假設前提,而此假設在實際情況中經常是不成立的,因而其分類准確性就會下降。為此就出現了許多降低獨立性假設的貝葉斯分類演算法,如TAN(Tree
Augmented Na?ve Bayes)演算法,它是在貝葉斯網路結構的基礎上增加屬性對之間的關聯來實現的。

(3)人工神經網路

人工神經網路(Artificial
Neural
Networks,ANN)是一種應用類似於大腦神經突觸聯接的結構進行信息處理的數學模型。在這種模型中,大量的節點(或稱」神經元」,或」單元」)之間相互聯接構成網路,即」神經網路」,以達到處理信息的目的。神經網路通常需要進行訓練,訓練的過程就是網路進行學習的過程。訓練改變了網路節點的連接權的值使其具有分類的功能,經過訓練的網路就可用於對象的識別。

目前,神經網路已有上百種不同的模型,常見的有BP網路、徑向基RBF網路、Hopfield網路、隨機神經網路(Boltzmann機)、競爭神經網路(Hamming網路,自組織映射網路)等。但是當前的神經網路仍普遍存在收斂速度慢、計算量大、訓練時間長和不可解釋等缺點。

(4)k-近鄰

k-近鄰(kNN,k-Nearest

Neighbors)演算法是一種基於實例的分類方法。該方法就是找出與未知樣本x距離最近的k個訓練樣本,看這k個樣本中多數屬於哪一類,就把x歸為那一類。k-近鄰方法是一種懶惰學習方法,它存放樣本,直到需要分類時才進行分類,如果樣本集比較復雜,可能會導致很大的計算開銷,因此無法應用到實時性很強的場合。

(5)支持向量機

支持向量機(SVM,Support
Vector Machine)是Vapnik根據統計學習理論提出的一種新的學習方法[43]
,它的最大特點是根據結構風險最小化准則,以最大化分類間隔構造最優分類超平面來提高學習機的泛化能力,較好地解決了非線性、高維數、局部極小點等問題。對於分類問題,支持向量機演算法根據區域中的樣本計算該區域的決策曲面,由此確定該區域中未知樣本的類別。

(6)基於關聯規則的分類

關聯規則挖掘是數據挖掘中一個重要的研究領域。近年來,對於如何將關聯規則挖掘用於分類問題,學者們進行了廣泛的研究。關聯分類方法挖掘形如condset→C的規則,其中condset是項(或屬性-值對)的集合,而C是類標號,這種形式的規則稱為類關聯規則(class
association
rules,CARS)。關聯分類方法一般由兩步組成:第一步用關聯規則挖掘演算法從訓練數據集中挖掘出所有滿足指定支持度和置信度的類關聯規則;第二步使用啟發式方法從挖掘出的類關聯規則中挑選出一組高質量的規則用於分類。屬於關聯分類的演算法主要包括CBA[44]
,ADT[45] ,CMAR[46] 等。

(7)集成學習(Ensemble Learning)

實際應用的復雜性和數據的多樣性往往使得單一的分類方法不夠有效。因此,學者們對多種分類方法的融合即集成學習進行了廣泛的研究。集成學習已成為國際機器學習界的研究熱點,並被稱為當前機器學習四個主要研究方向之一。

集成學習是一種機器學習範式,它試圖通過連續調用單個的學習演算法,獲得不同的基學習器,然後根據規則組合這些學習器來解決同一個問題,可以顯著的提高學習系統的泛化能力。組合多個基學習器主要採用(加權)投票的方法,常見的演算法有裝袋[47]
(Bagging),提升/推進[48, 49] (Boosting)等。

有關分類器的集成學習見圖2-5。集成學習由於採用了投票平均的方法組合多個分類器,所以有可能減少單個分類器的誤差,獲得對問題空間模型更加准確的表示,從而提高分類器的分類准確度。

圖2-5:分類器的集成學習

以上簡單介紹了各種主要的分類方法,應該說其都有各自不同的特點及優缺點。對於資料庫負載的自動識別,應該選擇哪種方法呢?用來比較和評估分類方法的標准[50]

主要有:(1)預測的准確率。模型正確地預測新樣本的類標號的能力;(2)計算速度。包括構造模型以及使用模型進行分類的時間;(3)強壯性。模型對雜訊數據或空缺值數據正確預測的能力;(4)可伸縮性。對於數據量很大的數據集,有效構造模型的能力;(5)模型描述的簡潔性和可解釋性。模型描述愈簡潔、愈容易理解,則愈受歡迎。

⑺ 什麼是分類演算法

分類(Categorization or Classification)就是按照某種標准給對象貼標簽(label),再根據標簽來區分歸類。

分類是事先定義好類別 ,類別數不變 。分類器需要由人工標注的分類訓練語料訓練得到,屬於有指導學習范疇。

最常用的分類演算法就是貝葉斯分類演算法,(貝葉斯分類器)
用到的知識就是概率的東西

謝謝採納

⑻ 分類演算法是什麼

分類演算法是在數學和計算機科學之中,演算法為一個計算的具體步驟,常用於計算、數據處理和自動推理。

精確而言,演算法是一個表示為有限長列表的有效方法。演算法應包含清晰定義的指令用於計算函數,演算法分類可以根據演算法設計原理、演算法的具體應用和其他一些特性進行分類。



具體意義:

如果一個演算法有缺陷,或不適合於某個問題,執行這個演算法將不會解決這個問題。不同的演算法可能用不同的時間、空間或效率來完成同樣的任務。一個演算法的優劣可以用空間復雜度與時間復雜度來衡量。

演算法中的指令描述的是一個計算,當其運行時能從一個初始狀態和(可能為空的)初始輸入開始,經過一系列有限而清晰定義的狀態,最終產生輸出並停止於一個終態。一個狀態到另一個狀態的轉移不一定是確定的。隨機化演算法在內的一些演算法,包含了一些隨機輸入。

⑼ 如何找到關於演算法分類對比的論文

可以在知乎、萬芳、維普等各大網站可以找到演算法分類對比的論文。
知網是提供用戶論文查重的一個平台。知網的資料庫會收錄學術、期刊、論文等可以作為學術研究的資料參考。
在知網中,用戶可以下載所需的文獻資料,很多大學會和知網合作,提供學生知網查重的服務,學生即可使用賬號登錄知網,在知網中選擇查重系統進行檢測,最後根據查重報告單來確定自己的論文重復率是多少。知網通過更為精準、系統、完備的顯性管理,以及嵌入工作與學習具體過程的隱性知識管理,提供面向問題的知識服務和激發群體智慧的協同研究平台。

⑽ 聚類演算法和分類演算法有什麼區別么

聚類是未知結果會有多少類的,即可能聚成10個類也可能聚成100個類,只是根據某些相似性條件把數據聚合在一起,當然也有讓用戶自定義類數目的聚類演算法,但這個數目也不好定的。分類是已知一共有多少類,並明確知道該類的特點,然後把未知的按一定規則分到某一個類中
聚類聚類的數據集要比較多,這樣才有東西聚成一堆一堆的。分類可以多可以少,當然數據量大才能很好地說明分類演算法的優異。但實際上分類演算法在確定某些規則後,你可以只有一個未知的數據也可以把它分到某一個類別當中,但聚類如果只有一個未知的數據怎麼聚啊。

閱讀全文

與分類演算法知乎相關的資料

熱點內容
解壓到文件夾的視頻都自動隱藏了 瀏覽:565
閱讀器支持php 瀏覽:217
人生需求怎麼解壓 瀏覽:790
pdf列印機找不到 瀏覽:997
如何同時使用兩個apache伺服器 瀏覽:719
國外php論壇 瀏覽:961
災難是命令 瀏覽:600
linux火狐瀏覽器安裝 瀏覽:68
java子類重寫 瀏覽:815
壓縮袋太大裝不進櫃子怎麼辦 瀏覽:839
程序員簡歷里的職業 瀏覽:108
現在哪個app可以聽付費歌曲 瀏覽:969
vivo的添加文件夾 瀏覽:351
ubuntu壓縮zip 瀏覽:4
vigenere演算法的方法是什麼 瀏覽:668
pdf保護破解 瀏覽:345
仿微信聊天系統源碼廣州公司 瀏覽:109
怎麼查看我的世界伺服器日誌 瀏覽:431
怎麼從程序員走到成功 瀏覽:826
把軟體放入文件夾中如何移出 瀏覽:211