⑴ 常見的監督學習演算法
一. K-近鄰演算法(k-Nearest Neighbors,KNN)
K-近鄰是一種分類演算法,其思路是:如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別。K通常是不大於20的整數。KNN演算法中,所選擇的鄰居都是已經正確分類的對象。該方法在定類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。
二、決策樹(Decision Trees)
決策樹是一個樹結構(可以是二叉樹或非二叉樹)。其每個非葉節點表示一個特徵屬性上的測試,每個分支代表這個特徵屬性在某個值域上的輸出,而每個葉節點存放一個類別。
使用決策樹進行決策的過程就是從根節點開始,測試待分類項中相應的特徵屬性,並按照其值選擇輸出分支,直到到達葉子節點,將葉子節點存放的類別作為決策結果。
三、樸素貝葉斯(Naive Bayesian)
貝葉斯分類是一系列分類演算法的總稱,這類演算法均以貝葉斯定理為基礎,故統稱為貝葉斯分類。樸素貝葉斯演算法(Naive Bayesian) 是其中應用最為廣泛的分類演算法之一。樸素貝葉斯分類器基於一個簡單的假定:給定目標值時屬性之間相互條件獨立。
四、邏輯回歸(Logistic Regression)
線性回歸就是根據已知數據集求一線性悔攜函數,使其盡可能擬合數據,讓損失函數最小,常用的拿棚線性碧敏伏回歸最優法有最小二乘法和梯度下降法。而邏輯回歸是一種非線性回歸模型,相比於線性回歸,它多了一個sigmoid函數(或稱為Logistic函數)。
五、AdaBoost
AdaBoost目的就是從訓練數據中學習一系列的弱分類器或基本分類器,然後將這些弱分類器組合成一個強分類器。AdaBoost有一個很突出的特點就是精度很高。
六、神經網路
神經網路從信息處理角度對人腦神經元網路進行抽象,建立某種簡單模型,按不同的連接方式組成不同的網路。