1. 大數據演算法有哪些
大數據是一個很廣的概念,並沒有大數據演算法這種東西,您估計想問的是大數據挖掘的演算法:
1.樸素貝葉斯
超級簡單,就像做一些數數的工作。如果條件獨立假設成立的話,NB將比鑒別模型收斂的更快,所以你只需要少量的訓練數據。即使條件獨立假設不成立,NB在實際中仍然表現出驚人的好。
2. 回歸
LR有很多方法來對模型正則化。比起NB的條件獨立性假設,LR不需要考慮樣本是否是相關的。與決策樹與支持向量機不同,NB有很好的概率解釋,且很容易利用新的訓練數據來更新模型(使用在線梯度下降法)。
3.決策樹
DT容易理解與解釋。DT是非參數的,所以你不需要擔心野點和數據是否線性可分的問題,此外,RF在很多分類問題中經常表現得最好,且速度快可擴展,也不像SVM那樣需要調整大量的參數,所以最近RF是一個非常流行的演算法。
4.支持向量機
很高的分類正確率,對過擬合有很好的理論保證,選取合適的核函數,面對特徵線性不可分的問題也可以表現得很好。SVM在維數通常很高的文本分類中非常的流行。
想要了解更多有關數據挖掘的信息,可以了解一下CDA數據分析師的課程。大數據分析師現在有專業的國際認證證書了, 「CDA 數據分析師」具體指在互聯網、金融、零售、咨詢、電信、醫療、旅遊等行業專門從事數據的採集、清洗、處理、分析並能製作業務報告、 提供決策的新型數據分析人才。全球 CDA 持證者秉承著先進商業數據分析的新理念,遵循著《CDA 數據分析師職業道德和行為准則》新規范,發 揮著自身數據科學專業能力,推動科技創新進步,助力經濟持續發展。點擊預約免費試聽課。
2. knn演算法是什麼
KNN(K- Nearest Neighbor)法即K最鄰近法,最初由Cover和Hart於1968年提出,是一個理論上比較成熟的方法,也是最簡單的機器學習演算法之一。
作為一種非參數的分類演算法,K-近鄰(KNN)演算法是非常有效和容易實現的。它已經廣泛應用於分類、回歸和模式識別等。
介紹
KNN演算法本身簡單有效,它是一種lazy-learning演算法,分類器不需要使用訓練集進行訓練,訓練時間復雜度為0。KNN分類的計算復雜度和訓練集中的文檔數目成正比,也就是說,如果訓練集中文檔總數為n,那麼KNN的分類時間復雜度為O(n)。
KNN方法雖然從原理上也依賴於極限定理,但在類別決策時,只與極少量的相鄰樣本有關。由於KNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對於類域的交叉或重疊較多的待分樣本集來說,KNN方法較其他方法更為適合。
3. 用於數據挖掘的分類演算法有哪些,各有何優劣
樸素貝葉斯(Naive Bayes, NB)
超級簡單,就像做一些數數的工作。如果條件獨立假設成立的話,NB將比鑒別模型(如Logistic回歸)收斂的更快,所以你只需要少量的訓練數據。即使條件獨立假設不成立,NB在實際中仍然表現出驚人的好。如果你想做類似半監督學習,或者是既要模型簡單又要性能好,NB值得嘗試。
Logistic回歸(Logistic Regression, LR)
LR有很多方法來對模型正則化。比起NB的條件獨立性假設,LR不需要考慮樣本是否是相關的。與決策樹與支持向量機(SVM)不同,NB有很好的概率解釋,且很容易利用新的訓練數據來更新模型(使用在線梯度下降法)。如果你想要一些概率信息(如,為了更容易的調整分類閾值,得到分類的不確定性,得到置信區間),或者希望將來有更多數據時能方便的更新改進模型,LR是值得使用的。
決策樹(Decision Tree, DT)
DT容易理解與解釋(對某些人而言——不確定我是否也在他們其中)。DT是非參數的,所以你不需要擔心野點(或離群點)和數據是否線性可分的問題(例如,DT可以輕松的處理這種情況:屬於A類的樣本的特徵x取值往往非常小或者非常大,而屬於B類的樣本的特徵x取值在中間范圍)。DT的主要缺點是容易過擬合,這也正是隨機森林(Random Forest, RF)(或者Boosted樹)等集成學習演算法被提出來的原因。此外,RF在很多分類問題中經常表現得最好(我個人相信一般比SVM稍好),且速度快可擴展,也不像SVM那樣需要調整大量的參數,所以最近RF是一個非常流行的演算法。
支持向量機(Support Vector Machine, SVM)
很高的分類正確率,對過擬合有很好的理論保證,選取合適的核函數,面對特徵線性不可分的問題也可以表現得很好。SVM在維數通常很高的文本分類中非常的流行。由於較大的內存需求和繁瑣的調參,我認為RF已經開始威脅其地位了。
回到LR與DT的問題(我更傾向是LR與RF的問題),做個簡單的總結:兩種方法都很快且可擴展。在正確率方面,RF比LR更優。但是LR可以在線更新且提供有用的概率信息。鑒於你在Square(不確定推斷科學家是什麼,應該不是有趣的化身),可能從事欺詐檢測:如果你想快速的調整閾值來改變假陽性率與假陰性率,分類結果中包含概率信息將很有幫助。無論你選擇什麼演算法,如果你的各類樣本數量是不均衡的(在欺詐檢測中經常發生),你需要重新采樣各類數據或者調整你的誤差度量方法來使各類更均衡。
4. 局部加權回歸演算法是參數學習演算法還是非參數學習演算法
既然是局部加權就是參數學習演算法。
5. 高斯過程說它是非參數模型,這點怎麼理解
1、Clarke Modal最理想的模型:
其中N為多徑徑數,Cn為每一徑的幅度增益,wd為最大多普勒頻散,an為每一徑來波方向,phin為每一徑初始相位。其中Cn,an,phin是隨機數,在徑數N很大的時候,g(t)可被視為高斯隨機過程,an,phin看做在(-pi,pi]均勻分布,由此有以下結論:(1)信號幅度服從瑞利分布;(2)相位在(-pi,pi]均勻分布;(3)信道響應的二階統計特性:如自相關滿足貝塞爾曲線J(wd*tau),(tau:相關時間差,之前我寫過一篇速度估計的日誌,其中的相關演算法就是基於自相關的二階統計特性估計移動速度),信號兩個正交分量的互相關為0;(4)以及四階統計特性。由於告誡統計特性不好表達,直接給出公式了:
2、Jake Modal:這是現在常用的信道模型,與Clarke的不同時,歸一化後每一徑幅度增益相同且為1/sqrt(N),每徑初始相位都為0,第n徑來波方向為2*pi*n/N,n=1,2,3,..N。也就是上述中的Cn,an,phin為:
Jake模型大名就不說了,我覺得大家之所以那麼愛用它是因為它將Clarke理論模型優化了,它是可以用模擬實現的。畢竟Clarke是個統計模型,每一徑來波方向都在(-pi,pi]均勻分布的隨機數,但只當多徑數量趨於無窮的時候才符合以上統計特性,看到許多文章都用100個正弦分量來合成一個徑,這對系統模擬來說代價太大。那麼怎麼才能用有限個的正弦分量(N)產生符合Clarke統計特性的信道呢?Jake模型為了減少計算量,就人為的把N徑均勻的分布在(-pi,pi]范圍內,模擬的時候這N個徑不是(-pi,pi]的隨機數,而是公式an=2*pi*n/N給出的特定值,這樣即使N很小也能保證N個徑合成的信號與Clarke模型理論一致的,圖1給出了N=6時的情況。可以說Jake模型為Clarke理論模型找到了實際模擬可用的信道設計方案。但是有些地方理想的比較過分,比如每一徑的增益都一樣(實際中可能嗎?多徑延時特別小的話可以吧),而且初始相位也相同(可能嗎?多徑延時特別小的話可以吧),這樣設計可能對演算法模擬結果上有好處,不過做工程的話還是希望模擬模型更接近實際一些吧,所以文章【1】對Jake模型進行改進。
圖1 方位角an分布
但Jake模型的有一處設計讓我很驚嘆它的巧妙,即徑數的選擇N=4M+2,有了這個條件就可以簡化模擬運算,可以減少做硬體用到的震盪器(正弦分量)數量,想想本來要用N個正弦分量,現在只需M=(N-2)/4個了,簡化運算量。就拿TD-SCDMA信道來說吧,通常給出5個徑的Power Average和多徑時延tau_t,注意這里的徑區別於上述徑。此處為「大徑」,大徑由多徑時延區分開,而其中每一個「大徑」由無窮個「小徑」合成,這些「小徑」才是上面模型所提到的徑的概念,「小徑」合成的大徑服從上述的Clarke模型或Jake模型的統計特性,假設有6個小徑N=6,那麼M=1,從圖1可以看出這6個「小徑」方位角分布的對稱關系,從而將信道模型化簡為:
從上面看出,Jake模型和Clarke有那麼多不同,就可以很容易理解為什麼Jake模型的統計特性與Clarke理論不符了,下面給出公式:
3、改進信道:盡管Jake信道那麼的受歡迎,但是由於其高階統計特性與理想不符,所以文章【1】的作者對它進行了改進,其實我倒是覺得這個信道怎麼又朝著Clarke改回去了,說白了就是讓幅度、初始相位、來波方向盡可能隨機以符合Clarke理論的統計分布,但同時又能保證如Jake模型中所有徑總體來看在(-pi,pi]上均勻分布的,是有可借鑒之處的。挺適合我之前說的速度估計演算法使用,畢竟相關演算法、CrossingRate演算法都是由理論Clarke模型推出來的嘛。既能保證統計特性符合Clarke理論,又借鑒了Jake模型的優點能減少硬體實現和模擬時用到的正弦分量(徑數N)的個數。另外文章【1】說Clarke模型無法產生用於頻率選擇性和MIMO的信道,這個我是百思不得其解,怎樣的統計特性才符合呢?為什麼文章【1】的統計特性就可以產生符合MIMO的信道呢,想通了留到總結(2)記錄好了。下面給出Cn,an,phi公式:
其高階統計特性如下,與在徑數大的時候與Clarke完全一致:
6. 什麼是knn演算法
作為一種非參數的分類演算法,K-近鄰(KNN)演算法是非常有效和容易實現的。它已經廣泛應用於分類、回歸和模式識別等。在應用KNN演算法解決問題的時候,要注意兩個方面的問題——樣本權重和特徵權重。利用SVM來確定特徵的權重,提出了基於SVM的特徵加權演算法(FWKNN,feature
weighted
KNN)。實驗表明,在一定的條件下,FWKNN能夠極大地提高分類准確率。
7. 如何使用SPSS進行等級資料的Spearman非參數相關分析
操作,前面部分與連續變數的相關方法一致:
打開數據文件
分析-相關-雙變數,對話框里預設的演算法是pearson,你把後面spearman的勾勾上,計算的就是spearman相關
8. knn是什麼意思
作為一種非參數的分類演算法,K-近鄰(KNN)演算法是非常有效和容易實現的。它已經廣泛應用於分類、回歸和模式識別等。
在應用KNN演算法解決問題的時候,要注意兩個方面的問題——樣本權重和特徵權重。利用SVM來確定特徵的權重,提出了基於SVM的特徵加權演算法(FWKNN,featureweightedKNN)。實驗表明,在一定的條件下,FWKNN能夠極大地提高分類准確率。
(8)非參數演算法擴展閱讀:
KNN(K- Nearest Neighbor)法即K最鄰近法,最初由 Cover和Hart於1968年提出,是一個理論上比較成熟的方法,也是最簡單的機器學習演算法之一。該方法的思路非常簡單直觀:
如果一個樣本在特徵空間中的K個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別。該方法在定類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。
9. 為什麼決策樹是非參數學習演算法
為什麼決策樹是一種分類方法卻可以用於預測決策樹演算法是一種逼近離散函數值的方法。它是一種典型的分類方法,首先對數據進行處理,利用歸納演算法生成可讀的規則和決策樹,然後使用決策對新數據進行分析。本質上決策樹是通過一系列規則對數據進行分類的過程。