監督學習與異常檢測演算法_無監督學習與有監督學習演算法的區別

① 用機器學習檢測異常點擊流

用機器學習檢測異常點擊流
本文內容是我學習ML時做的一個練手項目，描述應用機器學習的一般步驟。該項目的目標是從點擊流數據中找出惡意用戶的請求。點擊流數據長下圖這樣子，包括請求時間、IP、平台等特徵：

該項目從開始做到階段性完成，大致可分為兩個階段：演算法選擇和工程優化。演算法選擇階段挑選合適的ML模型，嘗試了神經網路、高斯分布、Isolation Forest等三個模型。由於點擊流數據本身的特性，導致神經網路和高斯分布並不適用於該場景，最終選擇了Isolation Forest。工程優化階段，最初使用單機訓練模型和預測結果，但隨著數據量的增加，最初的單機系統出現了性能瓶頸；然後開始優化性能，嘗試了分布化訓練，最終通過單機非同步化達到了性能要求。
1 演算法選擇
1.1 神經網路
剛開始沒經驗，受TensorFlow熱潮影響，先嘗試了神經網路。選用的神經網路是MLP（Multilayer Perceptron，多層感知器），一種全連接的多層網路。MLP是有監督學習，需要帶標簽的樣本，這里「帶標簽」的意思是樣本數據標注了哪些用戶請求是惡意的、哪些是正常的。但後台並沒有現成帶標簽的惡意用戶樣本數據。後來通過安全側的一些數據「間接」給用戶請求打上了標簽，然後選擇IP、平台、版本號、操作碼等數據作為MLP的輸入數據。結果當然是失敗，想了下原因有兩個：
1，樣本的標簽質量非常差，用這些樣本訓練出來的模型性能當然也很差；
2，輸入的特徵不足以刻畫惡意用戶。
數據的質量問題目前很難解決，所以只能棄用MLP。
1.2 高斯分布
然後嘗試其他模型。通過搜索發現，有一類ML模型專門用於異常檢測，找到了Andrew Ng介紹的基於高斯分布的異常檢測演算法：高斯分布如下圖所示：

這個演算法的思想比較簡單：與大部分樣本不一致的樣本就是異常；通過概率密度量化「不一致」。具體做法是：選擇符合高斯分布或能轉換為高斯分布的特徵，利用收集到的數據對高斯分布做參數估計，把概率密度函數值小於某個閾值的點判定為異常。
所謂的參數估計是指，給定分布數據，求分布的參數。對高斯分布來說，就是求μ和σ。用極大似然估計可以得到高斯分布參數的解析解：

得到高斯分布參數後，用下式計算概率密度：

X表示一個特徵輸入。若有多個特徵x0、x1、…、xn，一種簡單的處理方法是將其結果連乘起來即可：f(x) = f(x0)f(x1)…f(xn)。
然後選定一個閾值ε，把f(x) < ε的樣本判定為異常。ε值需根據實際情況動態調整，默認可設定ε = f(μ- 3σ)。
把這個模型初步應用於點擊流異常檢測時，效果還不錯，但在進一步實施過程中碰到一個棘手問題：樣本中最重要的一個特徵是操作碼，當前操作碼在微信後台的取值范圍是[101,1000]，每個操作碼的請求次數是模型的基礎輸入，對900個特徵計算概率密度再相乘，非常容易導致結果下溢出，以致無法計算出精度合適的概率密度值。這個現象被稱為維度災難（Dimension Disaster）。
解決維度災難的一個常見做法是降維，降維的手段有多種，這里不展開討論了。在點擊流分析的實踐中，降維的效果並不好，主要原因有兩個：
1，正常用戶和惡意用戶的訪問模式並不固定，導致很難分解出有效的特徵矩陣或特徵向量；
2，降維的本質是有損壓縮，有損壓縮必定導致信息丟失。但在本例中每一維的信息都是關鍵信息，有損壓縮會極大破壞樣本的有效性。
高斯分布模型的維度災難在本例中較難解決，只能再嘗試其他模型了
1.3 Isolation Forest
Isolation Forest，可翻譯為孤異森林，該演算法的基本思想是：隨機選擇樣本的一個特徵，再隨機選擇該特徵取值范圍中的一個值，對樣本集做拆分，迭代該過程，生成一顆Isolation Tree；樹上葉子節點離根節點越近，其異常值越高。迭代生成多顆Isolation Tree，生成Isolation Forest，預測時，融合多顆樹的結果形成最終預測結果。Isolation Forest的基礎結構有點類似經典的隨機森林（Random Forest）。
這個異常檢測模型有效利用了異常樣本「量少」和「與正常樣本表現不一樣」的兩個特點，不依賴概率密度因此不會導致高維輸入的下溢出問題。提取少量點擊流樣本測試，它在900維輸入的情況下也表現良好，最終選擇它作為系統的模型。
2 工程優化
工程實現經歷了單機訓練、分布式訓練、單機非同步化訓練3個方案，下面內容介紹實現過程中碰到的問題和解決方法。
2.1 單機訓練
整個系統主要包括收集數據、訓練模型、預測異常、上報結果四個部分。
2.1.1 收集數據
剛開始嘗試該模型時，是通過手工方式從mmstreamstorage獲取樣本的：
1，通過logid 11357，得到手工登錄成功用戶的uin和登錄時間；
2，利用mmstreamstorage提供的介面，得到用戶登錄後10分鍾的點擊流；
但這樣做有兩個缺點：
1，上述步驟1是離線手工操作的，需要做成自動化；
2，mmstreamstorage的介面性能較差，只能提供2萬/min的查詢性能，上海IDC登錄的峰值有9萬/min。
改進辦法是復用點擊流上報模塊mmstreamstorage，增加一個旁路數據的邏輯：
1，手工登錄時在presence中記錄手工登錄時間，mmstreamstorage基於該時間旁路一份數據給mmguardstore。由於mmstreamstorage每次只能提供單挑點擊流數據，所以需要在mmguardstore中緩存；
2，mmguardstore做完數據清洗和特徵提取，然後把樣本數據落地，最後利用crontab定期將該數據同步到Hadoop集群中。
最終的數據收集模塊結構圖如下所示：

點擊流數據提供了IP、平台、版本號、操作碼等特徵，經過多次試驗，選定用戶手工登錄後一段時間內操作碼的訪問次數作為模型的輸入。
上面我們提到過點擊流的操作碼有900個有效取值，所以一個顯然的處理方法是，在mmguardstore中把用戶的點擊流數據轉化為一個900維的向量，key是cgi id，value是對應cgi的訪問次數。該向量刻畫了用戶的行為，可稱為行為特徵向量。
2.1.2 訓練模型
初起為了控制不確定性，只輸入1萬/分鍾的樣本給模型訓練和預測。系統的工作流程是先從Hadoop載入上一分鍾的樣本數據，然後用數據訓練Isolation Forest模型，最後用訓練好的模型做異常檢測，並將檢測結果同步到tdw。
在1萬/分鍾輸入下取得較好的檢測結果後，開始導入全量數據，全量數據數據的峰值為20萬/分鍾左右。出現的第一個問題是，一分鍾內無法完成載入數據、訓練模型、預測結果，單載入數據就耗時10分鍾左右。這里先解釋下為什麼有「一分鍾」的時間周期限制，主要原因有兩個：
1，想盡快獲取檢測結果；
2，由於點擊流異常檢測場景的特殊性，模型性能有時效性，需要經常用最新數據訓練新的模型。
解決性能問題的第一步是要知道性能瓶頸在哪裡，抽樣發現主要是載入數據和訓練模型耗時較多，預測異常和上報結果的耗時並沒有隨數據量的增加而快速上漲。
載入數據的耗時主要消耗在網路通信上：樣本文件太大了，導致系統從Hadoop同步樣本數據時碰到網路帶寬瓶頸。但由於樣本是文本類數據，對數據先壓縮再傳輸可極大減少通信量，這里的耗時比較容易優化。
訓練模型的耗時增加源於輸入數據量的增加。下圖是1萬樣本/min的輸入下，系統個階段的耗時：

其中：
載入程序： 2s
載入數據： 6s
訓練模型：11s
分類異常： 2s
保存結果： 4s
單輪總耗時：25s
需處理全量數據時，按線性關系換算，「訓練模型」耗時為：11s * 24 = 264s，約為4.4分鍾，單機下無法在1分鍾內完成計算。
最先想到的優化訓練模型耗時的辦法是分布式訓練。
2.2 分布式訓練
由於scikit-learn只提供單機版的Isolation Forest實現，所以只能自己實現它的分布式版本。了解了下目前最常用的分布式訓練方法是參數伺服器（Parameter Server，PS）模式，其想法比較簡單：訓練模型並行跑在多機上，訓練結果在PS合並。示意圖如下所示：

分布式訓練對演算法有一定要求，而Isolation Forest正好適用於分布式訓練。
然後嘗試在TensorFlow上實現Isolation Forest的分布式訓練版本。選擇TensorFlow的原因有主要兩個：
1， TensorFlow已經實現了一個分布式訓練框架；
2， TensorFlow的tf.contrib.learn包已經實現的Random Forest可作參考（Isolation Forest在結構上與Random Forest類似），只需對Isolation Forest定製一個Operation即可。
寫完代碼測試時，發現了個巨坑的問題：TenforFlow內部的序列化操作非常頻繁、性能十分差。構造了110個測試樣本，scikit-learn耗時只有0.340秒，29萬次函數調用；而TensorFlow耗時達207.831秒，有2.48億次函數調用。
TensorFlow性能抽樣：

Scikit-learn性能抽樣：

從TensorFlow的性能抽樣數據可以看到，耗時排前排的函數都不是實現Isolation Forest演算法的函數，其原因應該與TensorFlow基於Graph、Session的實現方式有關。感覺這里坑比較深，遂放棄填坑。
也了解了下基於Spark的spark-sklearn，該項目暫時還未支持Isolation Forest，也因為坑太深，一時半會搞不定而放棄了。
2.3 單機非同步化訓練
沒搞定分布式訓練，只能回到單機場景再想辦法。單機優化有兩個著力點：優化演算法實現和優化系統結構。
首先看了下scikit-learn中Isoaltion Forest的實現，底層專門用Cython優化了，再加上Joblib庫的多CPU並行，演算法實現上的優化空間已經很小了，只能從系統結構上想辦法。
系統結構上的優化有兩個利器：並行化和非同步化。之前的單機模型，載入數據、訓練模型、預測異常、上報結果在單進程中串列執行，由此想到的辦法是啟動4個工作進程分別處理相應的四個任務：非同步訓練模型、預測異常和上報結果，並行載入數據。工作進程之間用隊列通信，隊列的一個優勢是容易實現流量控制。
寫完代碼測試，卻發現YARD環境中的Python HDFS庫在多進程並發下直接拋異常。嘗試多個方法發現這個問題較難解決，暫時只能想辦法規避。經測試發現，直接從Hadoop同步所有壓縮過的樣本數據只需2秒左右，由此想到規避方法是：先單進程同步所有樣本數據，再多進程並發解壓、載入和預測。
按上述想法修改代碼測試，效果較好，處理所有樣本只需20秒左右，達到了1分鍾處理完所有樣本的要求。然後提交YARD作業線上跑，處理所有樣本耗時卻達到200～400秒：

咨詢YARD側同學，得知YARD對提交的離線作業有CPU配額的硬限制，分時段配額如下表：
00:00~09:00 80%
09:00~19:00 50%
19:00~23:00 15%
23:00~24:00 50%
晚高峰時段的配額只有15%。
與YARD側同學溝通，他們答應後續會支持scikit-learn庫的在線服務。目前通過手工方式在一台有scikit-learn的mmguardstore機器上運行在線服務，晚高峰時段處理全量數據耗時為20秒左右。
最終的系統結構圖如下圖所示：

模型訓練進程定期訓練最新的模型，並把模型通過隊列傳給預測進程。預測進程每分鍾運行一次，檢查模型隊列上是否有新模型可使用，然後載入數據、檢測異常，將檢測結果通過上報隊列傳給上報進程。上報進程block在上報隊列上，一旦發現有新數據，就根據數據類型執行上報監控、上報tdw等操作。
2.4 評估性能
安全側將異常用戶分為以下幾類：盜號、LBS/加好友、養號、欺詐、外掛/多開等。由於這些分類的異常打擊是由不同同學負責，不便於對Isolation Forest的分類結果做評估，因此需要在Isolation Forest的基礎上，再加一個分類器，標記「異常樣本」的小類。利用操作碼實現了該分類器。
接入全量數據後，每天准實時分析1億量級的樣本，檢測出500萬左右的異常，精確分類出15萬左右的惡意請求。惡意請求的uin、類型、發生時間通過tdw中轉給安全側。安全側通過線下人工分析和線上打擊，從結果看檢測效果較好。
2.5 持續優化
再回過頭觀察點擊流數據，我們使用的Isolation Forest模型只利用了操作碼的統計數據。可以明顯看到，點擊流是一個具備時間序列信息的時序數據。而自然語言處理（Natural LanguageProcessing，NLP）領域已經積累了非常多的處理時序數據的理論和實戰經驗，如LSTM、word2vec等模型。後續期望能引入NLP的相關工具挖掘出更多惡意用戶。

② 天眼ai ops平台單指標異常檢測演算法提供電能力有哪些

咨詢記錄 · 回答於2021-07-15

③ 神經網路異常檢測方法和機器學習異常檢測方法對於入侵檢測的應用

神經網路異常檢測方法

神經網路入侵檢測方法是通過訓練神經網路連續的信息單元來進行異常檢測，信息單元指的是命令。網路的輸入為用戶當前輸入的命令和已執行過的W個命令；用戶執行過的命令被神經網路用來預測用戶輸入的下一個命令，如下圖。若神經網路被訓練成預測用戶輸入命令的序列集合，則神經網路就構成用戶的輪郭框架。當用這個神經網路預測不出某用戶正確的後繼命令，即在某種程度上表明了用戶行為與其輪廓框架的偏離，這時表明有異常事件發生，以此就能作異常入侵檢測。

上面式子用來分類識別，檢測異常序列。實驗結果表明這種方法檢測迅速，而且誤警率底。然而，此方法對於用戶動態行為變化以及單獨異常檢測還有待改善。復雜的相似度量和先驗知識加入到檢測中可能會提高系統的准確性，但需要做進一步工作。

④ 人工智慧和網路安全選哪個好

我個人認為二者各有各的特點，主要看自己內心的想法，人工智慧與網路安全的結合目前還是一個新興產業,但具有發展前途,特別是計算安全領域還有很多尚未解決且具有挑戰性的問題需要人們不斷去探索和追尋答案。以下是我的個人看法，希望能夠對大家有幫助。

生活中就比如說給自己的用戶名設置足夠長度的密碼,最好使用大小寫混合和特殊符號,不要為了貪圖好記而使用純數字密碼，不要使用與自己相關的資料作為個人密碼,如自己或男(女)朋友的生日,電話號碼,身份證號碼等等，這些對於網路安全都是至關重要的。在我們的日常生活中,難免會遇到大大小小的安全問題,安全知識大全可以幫助我們解決安全的一些小問題。所以，積極學習網路安全也是非常有必要的一件事情。

以上就是我的個人見解，希望能夠對大家有用。

⑤ 常見的監督學習演算法

K-近鄰演算法：K-近鄰是一種分類演算法，其思路是如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別。

K通常是不大於20的整數。KNN演算法中，所選擇的鄰居都是已經正確分類的對象。該方法在定類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。

ID3演算法：劃分數據集的最大原則就是將數據變得更加有序。熵（entropy）是描述信息不確定性（雜亂程度）的一個值。

(5)監督學習與異常檢測演算法擴展閱讀：

注意事項：

分類：當數據被用於預測類別時，監督學習也可處理這類分類任務。給一張圖片貼上貓或狗的標簽就是這種情況。當分類標簽只有兩個時，這就是二元分類，超過兩個則是多元分類。

預測：這是一個基於過去和現在的數據預測未來的過程，其最大應用是趨勢分析。一個典型實例是根據今年和前年的銷售業績以預測下一年的銷售業績。

⑥ 監督學習非監督學習半監督學習包含哪些演算法

半監督學習(Semi-Supervised Learning，SSL)是模式識別和機器學習領域研究的重點問題，是監督學習與無監督學習相結合的一種學習方法。半監督學習使用大量的未標記數據，以及同時使用標記數據，來進行模式識別工作。當使用半監督學習時，將會要求盡量少的人員來從事工作，同時，又能夠帶來比較高的准確性，因此，半監督學習目前正越來越受到人們的重視。

⑦ 無監督學習與有監督學習演算法的區別

無監督學習的好處之一是，它不需要監督學習必須經歷的費力的數據標記過程。但是，要權衡的是，評估其性能的有效性也非常困難。相比之下，通過將監督學習演算法的輸出與測試數據的實際標簽進行比較，可以很容易地衡量監督學習演算法的准確性。

⑧ 有監督學習和無監督學習演算法怎麼理解

在判斷是有監督學習還是在無監督學習上，我們可以具體是否有監督（supervised），就看輸入數據是否有標簽（label）。輸入數據有標簽，則為有監督學習，沒標簽則為無監督學習。

什麼是學習（learning）？

一個成語就可概括：舉一反三。機器學習的思路有點類似高考一套套做模擬試題，從而熟悉各種題型，能夠面對陌生的問題時算出答案。

簡而言之，機器學習就是看能不能利用一些訓練數據（已經做過的題），使機器能夠利用它們（解題方法）分析未知數據（高考題目），而這種根據類別未知(沒有被標記)的訓練樣本解決模式識別中的各種問題，稱之為無監督學習。

常用的無監督學習演算法主要有三種：聚類、離散點檢測和降維，包括主成分分析方法PCA等，等距映射方法、局部線性嵌入方法、拉普拉斯特徵映射方法、黑塞局部線性嵌入方法和局部切空間排列方法等。

從原理上來說，PCA等數據降維演算法同樣適用於深度學習，但是這些數據降維方法復雜度較高，所以現在深度學習中採用的無監督學習方法通常採用較為簡單的演算法和直觀的評價標准。比如無監督學習中最常用且典型方法聚類。

在無監督學習中，我們需要將一系列無標簽的訓練數據，輸入到一個演算法中，然後我們告訴這個演算法，快去為我們找找這個數據的內在結構給定數據。這時就需要某種演算法幫助我們尋找一種結構。

監督學習（supervised learning），是從給定的有標注的訓練數據集中學習出一個函數（模型參數），當新的數據到來時可以根據這個函數預測結果。常見任務包括分類與回歸。

無監督學習方法在尋找數據集中的規律性，這種規律性並不一定要達到劃分數據集的目的，也就是說不一定要「分類」。比如，一組顏色各異的積木，它可以按形狀為維度來分類，也可以按顏色為維度來分類。（這一點比監督學習方法的用途要廣。如分析一堆數據的主分量，或分析數據集有什麼特點都可以歸於無監督學習方法的范疇），而有監督學習則是通過已經有的有標簽的數據集去訓練得到一個最優模型。

導航:首頁 > 源碼編譯 > 監督學習與異常檢測演算法

監督學習與異常檢測演算法

與監督學習與異常檢測演算法相關的資料