兩步目標檢測演算法_yolo演算法是什麼

㈠目標跟蹤檢測演算法（四）——多目標擴展

姓名：劉帆；學號：20021210609；學院：電子工程學院

https://blog.csdn.net/qq_34919792/article/details/89893665

【嵌牛導讀】基於深度學習的演算法在圖像和視頻識別任務中取得了廣泛的應用和突破性的進展。從圖像分類問題到行人重識別問題，深度學習方法相比傳統方法表現出極大的優勢。與行人重識別問題緊密相關的是行人的多目標跟蹤問題。

【嵌牛鼻子】深度多目標跟蹤演算法

【嵌牛提問】深度多目標跟蹤演算法有哪些？

【嵌牛正文】

第一階段（概率統計最大化的追蹤）

1）多假設多目標追蹤演算法（MHT，基於kalman在多目標上的拓展）

多假設跟蹤演算法(MHT)是非常經典的多目標跟蹤演算法，由Reid在對雷達信號的自動跟蹤研究中提出，本質上是基於Kalman濾波跟蹤演算法在多目標跟蹤問題中的擴展。

卡爾曼濾波實際上是一種貝葉斯推理的應用，通過歷史關聯的預測量和k時刻的預測量來計算後驗概率：

關聯假設的後驗分布是歷史累計概率密度的連乘，轉化為對數形式，可以看出總體後驗概率的對數是每一步觀察似然和關聯假設似然的求和。但是若同時出現多個軌跡的時候，則需要考慮可能存在的多個假設關聯。

左圖為k-3時刻三個檢測觀察和兩條軌跡的可能匹配。對於這種匹配關系，可以繼續向前預測兩幀，如圖右。得到一種三層的假設樹結構，對於假設樹根枝乾的剪枝，得到k-3時刻的最終關聯結果。隨著可能性增加，假設組合會爆炸性增多，為此，只為了保留最大關聯性，我們需要對其他的節點進行裁剪。下式為選擇方程

實際上MHT不會單獨使用，一般作為單目標追蹤的擴展添加。

2）基於檢測可信度的粒子濾波演算法

這個演算法分為兩個步驟：

1、對每一幀的檢測結果，利用貪心匹配演算法與已有的對象軌跡進行關聯。

其中tr表示一個軌跡，d是某一個檢測，他們的匹配親和度計算包含三個部分：在線更新的分類學習模型(d)，用來判斷檢測結果是不是屬於軌跡tr; 軌跡的每個粒子與檢測的匹配度，採用中心距離的高斯密度函數求和(d-p)表示；與檢測尺寸大小相關的閾值函數g(tr,d)，表示檢測與軌跡尺度的符合程度, 而α是預設的一個超參數。

計算出匹配親和度矩陣之後，可以採用二部圖匹配的Hungarian演算法計算匹配結果。不過作者採用了近似的貪心匹配演算法，即首先找到親和度最大的那個匹配，然後刪除這個親和度，尋找下一個匹配，依次類推。貪心匹配演算法復雜度是線性，大部分情況下，也能得到最優匹配結果。

2、利用關聯結果，計算每個對象的粒子群權重，作為粒子濾波框架中的觀察似然概率。

其中tr表示需要跟蹤的對象軌跡，p是某個粒子。指示函數I(tr)表示第一步關聯中，軌跡tr是不是關聯到某個檢測結果，當存在關聯時，計算與關聯的檢測d 的高斯密度P{n}(p-d )；C{tr}§是對這個粒子的分類概率；§是粒子通過檢測演算法得到的檢測可信度，(tr)是一個加權函數，計算如下：

3）基於馬爾科夫決策的多目標跟蹤演算法

作者把目標跟蹤看作為狀態轉移的過程，轉移的過程用馬爾科夫決策過程(MDP)建模。一個馬爾科夫決策過程包括下面四個元素：(S, A, T(.),R(.))。其中S表示狀態集合，A表示動作集合，T表示狀態轉移集合，R表示獎勵函數集合。一個決策是指根據狀態s確定動作a, 即 π: SA。一個對象的跟蹤過程包括如下決策過程：

從Active狀態轉移到Tracked或者Inactive狀態：即判斷新出現的對象是否是真。

從Tracked狀態轉移到Tracked或者Lost狀態：即判斷對象是否是持續跟蹤或者暫時處於丟失狀態。

從Lost狀態轉移到Lost或者Tracked或者Inactive狀態：即判斷丟失對象是否重新被跟蹤，被終止，或者繼續處於丟失狀態。

作者設計了三個獎勵函數來描述上述決策過程：

第一個是：

即判斷新出現的對象是否為真，y(a)=1時表示轉移到跟蹤狀態，反之轉移到終止狀態。這是一個二分類問題，採用2類SVM模型學習得到。這里用了5維特徵向量：包括x-y坐標、寬、高和檢測的分數。

第二個是：

這個函數用來判斷跟蹤對象下一時刻狀態是否是出於繼續跟蹤，還是處於丟失，即跟蹤失敗。這里作者用了5個歷史模板，每個模板和當前圖像塊做光流匹配，emedFB表示光流中心偏差，表示平均重合率。和是閾值。

第三個是：

這個函數用來判斷丟失對象是否重新跟蹤，或者終止，或者保持丟失狀態不變。這里當丟失狀態連續保持超過 (=50)時，則轉向終止，其他情況下通過計算M個檢測匹配，來判斷是否存在最優的匹配使上式(3-14)獎勵最大，並大於0。這里涉及兩個問題如何設計特徵以及如何學習參數。這里作者構造了12維與模板匹配相關的統計值。而參數的學習採用強化學習過程，主要思想是在犯錯時候更新二類分類器值。

第二階段深度學習應用

1）基於對稱網路的多目標跟蹤演算法

關於Siamese網路在單目標跟蹤深度學習中有了介紹，在這里不再介紹，可以向前參考。

2）基於最小多割圖模型的多目標跟蹤演算法

上述演算法中為了匹配兩個檢測採用LUV圖像格式以及光流圖像。Tang等人在文獻中發現採用深度學習計算的類光流特徵(DeepMatching)，結合表示能力更強的模型也可以得到效果很好的多目標跟蹤結果。

基於DeepMatching特徵，可以構造下列5維特徵：

其中MI,MU表示檢測矩形框中匹配的點的交集大小以及並集大小，ξv和ξw表示檢測信任度。利用這5維特徵可以學習一個邏輯回歸分類器。

同樣，為了計算邊的匹配代價，需要設計匹配特徵。這里，作者採用結合姿態對齊的疊加Siamese網路計算匹配相似度，如圖9，採用的網路模型StackNetPose具有最好的重識別性能。

綜合StackNetPose網路匹配信任度、深度光流特徵(deepMatching)和時空相關度，作者設計了新的匹配特徵向量。類似於[2], 計算邏輯回歸匹配概率。最終的跟蹤結果取得了非常突出的進步。在MOT2016測試數據上的結果如下表：

3）通過時空域關注模型學習多目標跟蹤演算法

除了採用解決目標重識別問題的深度網路架構學習檢測匹配特徵，還可以根據多目標跟蹤場景的特點，設計合適的深度網路模型來學習檢測匹配特徵。Chu等人對行人多目標跟蹤問題中跟蹤演算法發生漂移進行統計分析，發現不同行人發生交互時，互相遮擋是跟蹤演算法產生漂移的重要原因[4]。如圖10。

在這里插入圖片描述

針對這個問題，文獻[4]提出了基於空間時間關注模型(STAM)用於學習遮擋情況，並判別可能出現的干擾目標。如圖11，空間關注模型用於生成遮擋發生時的特徵權重，當候選檢測特徵加權之後，通過分類器進行選擇得到估計的目標跟蹤結果，時間關注模型加權歷史樣本和當前樣本，從而得到加權的損失函數，用於在線更新目標模型。

該過程分三步，第一步是學習特徵可見圖：

第二步是根據特徵可見圖，計算空間關注圖(Spatial Attention):

其中fatt是一個局部連接的卷積和打分操作。wtji是學習到的參數。

第三步根據空間注意圖加權原特徵圖：

對生成的加權特徵圖進行卷積和全連接網路操作，生成二元分類器判別是否是目標自身。最後用得到分類打分選擇最優的跟蹤結果。

4）基於循環網路判別融合表觀運動交互的多目標跟蹤演算法

上面介紹的演算法採用的深度網路模型都是基於卷積網路結構，由於目標跟蹤是通過歷史軌跡信息來判斷新的目標狀態，因此，設計能夠記憶歷史信息並根據歷史信息來學習匹配相似性度量的網路結構來增強多目標跟蹤的性能也是比較可行的演算法框架。

考慮從三個方面特徵計算軌跡歷史信息與檢測的匹配：表觀特徵，運動特徵，以及交互模式特徵。這三個方面的特徵融合以分層方式計算。

在底層的特徵匹配計算中，三個特徵都採用了長短期記憶模型(LSTM)。對於表觀特徵，首先採用VGG-16卷積網路生成500維的特徵ϕtA，以這個特徵作為LSTM的輸入計算循環。

對於運動特徵，取相對位移vit為基本輸入特徵，直接輸入LSTM模型計算沒時刻的輸出ϕi，對於下一時刻的檢測同樣計算相對位移vjt+1,通過全連接網路計算特徵ϕj，類似於表觀特徵計算500維特徵ϕm，並利用二元匹配分類器進行網路的預訓練。

對於交互特徵，取以目標中心位置周圍矩形領域內其他目標所佔的相對位置映射圖作為LSTM模型的輸入特徵，計算輸出特徵ϕi，對於t+1時刻的檢測計算類似的相對位置映射圖為特徵，通過全連接網路計算特徵ϕj，類似於運動模型，通過全連接網路計算500維特徵ϕI，進行同樣的分類訓練。

當三個特徵ϕA，ϕM，ϕI都計算之後拼接為完整的特徵，輸入到上層的LSTM網路，對輸出的向量進行全連接計算，然後用於匹配分類，匹配正確為1，否則為0。對於最後的網路結構，還需要進行微調，以優化整體網路性能。最後的分類打分看作為相似度用於檢測與軌跡目標的匹配計算。最終的跟蹤框架採用在線的檢測與軌跡匹配方法進行計算。

5）基於雙線性長短期循環網路模型的多目標跟蹤演算法

在對LSTM中各個門函數的設計進行分析之後，Kim等人認為僅僅用基本的LSTM模型對於表觀特徵並不是最佳的方案，在文獻[10]中，Kim等人設計了基於雙線性LSTM的表觀特徵學習網路模型。

除了利用傳統的LSTM進行匹配學習，或者類似[5]中的演算法，拼接LSTM輸出與輸入特徵，作者設計了基於乘法的雙線性LSTM模型，利用LSTM的隱含層特徵(記憶)信息與輸入的乘積作為特徵，進行匹配分類器的學習。

這里對於隱含層特徵ht-1,必須先進行重新排列(reshape)操作，然後才能乘以輸入的特徵向量xt。

其中f表示非線性激活函數，mt是新的特徵輸入。而原始的檢測圖像採用ResNet50提取2048維的特徵，並通過全連接降為256維。下表中對於不同網路結構、網路特徵維度、以及不同LSTM歷史長度時，表觀特徵的學習對跟蹤性能的影響做了驗證。

可以看出採用雙線性LSTM(bilinear LSTM)的表觀特徵性能最好，此時的歷史相關長度最佳為40，這個值遠遠超過文獻[5]中的2-4幀歷史長度。相對來說40幀歷史信息影響更接近人類的直覺。

㈡目標檢測演算法（R-CNN，fast R-CNN，faster R-CNN，yolo，SSD，yoloV2，yoloV3）

深度學習目前已經應用到了各個領域，應用場景大體分為三類：物體識別，目標檢測，自然語言處理。目標檢測可以理解為是物體識別和物體定位的綜合，不僅僅要識別出物體屬於哪個分類，更重要的是得到物體在圖片中的具體位置。

2014年R-CNN演算法被提出，基本奠定了two-stage方式在目標檢測領域的應用。它的演算法結構如下圖

演算法步驟如下：

R-CNN較傳統的目標檢測演算法獲得了50%的性能提升，在使用VGG-16模型作為物體識別模型情況下，在voc2007數據集上可以取得66%的准確率，已經算還不錯的一個成績了。其最大的問題是速度很慢，內存佔用量很大，主要原因有兩個

針對R-CNN的部分問題，2015年微軟提出了Fast R-CNN演算法，它主要優化了兩個問題。

R-CNN和fast R-CNN均存在一個問題，那就是由選擇性搜索來生成候選框，這個演算法很慢。而且R-CNN中生成的2000個左右的候選框全部需要經過一次卷積神經網路，也就是需要經過2000次左右的CNN網路，這個是十分耗時的（fast R-CNN已經做了改進，只需要對整圖經過一次CNN網路）。這也是導致這兩個演算法檢測速度較慢的最主要原因。

faster R-CNN 針對這個問題，提出了RPN網路來進行候選框的獲取，從而擺脫了選擇性搜索演算法，也只需要一次卷積層操作，從而大大提高了識別速度。這個演算法十分復雜，我們會詳細分析。它的基本結構如下圖

主要分為四個步驟：

使用VGG-16卷積模型的網路結構：

卷積層採用的VGG-16模型，先將PxQ的原始圖片，縮放裁剪為MxN的圖片，然後經過13個conv-relu層，其中會穿插4個max-pooling層。所有的卷積的kernel都是3x3的，padding為1，stride為1。pooling層kernel為2x2, padding為0，stride為2。

MxN的圖片，經過卷積層後，變為了(M/16) x (N/16)的feature map了。

faster R-CNN拋棄了R-CNN中的選擇性搜索（selective search）方法，使用RPN層來生成候選框，能極大的提升候選框的生成速度。RPN層先經過3x3的卷積運算，然後分為兩路。一路用來判斷候選框是前景還是背景，它先reshape成一維向量，然後softmax來判斷是前景還是背景，然後reshape恢復為二維feature map。另一路用來確定候選框的位置，通過bounding box regression實現，後面再詳細講。兩路計算結束後，挑選出前景候選框（因為物體在前景中），並利用計算得到的候選框位置，得到我們感興趣的特徵子圖proposal。

卷積層提取原始圖像信息，得到了256個feature map，經過RPN層的3x3卷積後，仍然為256個feature map。但是每個點融合了周圍3x3的空間信息。對每個feature map上的一個點，生成k個anchor（k默認為9）。anchor分為前景和背景兩類（我們先不去管它具體是飛機還是汽車，只用區分它是前景還是背景即可）。anchor有[x,y,w,h]四個坐標偏移量，x,y表示中心點坐標，w和h表示寬度和高度。這樣，對於feature map上的每個點，就得到了k個大小形狀各不相同的選區region。

對於生成的anchors，我們首先要判斷它是前景還是背景。由於感興趣的物體位於前景中，故經過這一步之後，我們就可以舍棄背景anchors了。大部分的anchors都是屬於背景，故這一步可以篩選掉很多無用的anchor，從而減少全連接層的計算量。

對於經過了3x3的卷積後得到的256個feature map，先經過1x1的卷積，變換為18個feature map。然後reshape為一維向量，經過softmax判斷是前景還是背景。此處reshape的唯一作用就是讓數據可以進行softmax計算。然後輸出識別得到的前景anchors。

另一路用來確定候選框的位置，也就是anchors的[x,y,w,h]坐標值。如下圖所示，紅色代表我們當前的選區，綠色代表真實的選區。雖然我們當前的選取能夠大概框選出飛機，但離綠色的真實位置和形狀還是有很大差別，故需要對生成的anchors進行調整。這個過程我們稱為bounding box regression。

假設紅色框的坐標為[x,y,w,h], 綠色框，也就是目標框的坐標為[Gx, Gy,Gw,Gh], 我們要建立一個變換，使得[x,y,w,h]能夠變為[Gx, Gy,Gw,Gh]。最簡單的思路是，先做平移，使得中心點接近，然後進行縮放，使得w和h接近。如下：

我們要學習的就是dx dy dw dh這四個變換。由於是線性變換，我們可以用線性回歸來建模。設定loss和優化方法後，就可以利用深度學習進行訓練，並得到模型了。對於空間位置loss，我們一般採用均方差演算法，而不是交叉熵（交叉熵使用在分類預測中）。優化方法可以採用自適應梯度下降演算法Adam。

得到了前景anchors，並確定了他們的位置和形狀後，我們就可以輸出前景的特徵子圖proposal了。步驟如下：

1，得到前景anchors和他們的[x y w h]坐標。

2，按照anchors為前景的不同概率，從大到小排序，選取前pre_nms_topN個anchors，比如前6000個

3，剔除非常小的anchors。

4，通過NMS非極大值抑制，從anchors中找出置信度較高的。這個主要是為了解決選取交疊問題。首先計算每一個選區面積，然後根據他們在softmax中的score（也就是是否為前景的概率）進行排序，將score最大的選區放入隊列中。接下來，計算其餘選區與當前最大score選區的IOU（IOU為兩box交集面積除以兩box並集面積，它衡量了兩個box之間重疊程度）。去除IOU大於設定閾值的選區。這樣就解決了選區重疊問題。

5，選取前post_nms_topN個結果作為最終選區proposal進行輸出，比如300個。

經過這一步之後，物體定位應該就基本結束了，剩下的就是物體識別了。

和fast R-CNN中類似，這一層主要解決之前得到的proposal大小形狀各不相同，導致沒法做全連接。全連接計算只能對確定的shape進行運算，故必須使proposal大小形狀變為相同。通過裁剪和縮放的手段，可以解決這個問題，但會帶來信息丟失和圖片形變問題。我們使用ROI pooling可以有效的解決這個問題。

ROI pooling中，如果目標輸出為MxN，則在水平和豎直方向上，將輸入proposal劃分為MxN份，每一份取最大值，從而得到MxN的輸出特徵圖。

ROI Pooling層後的特徵圖，通過全連接層與softmax，就可以計算屬於哪個具體類別，比如人，狗，飛機，並可以得到cls_prob概率向量。同時再次利用bounding box regression精細調整proposal位置，得到bbox_pred，用於回歸更加精確的目標檢測框。

這樣就完成了faster R-CNN的整個過程了。演算法還是相當復雜的，對於每個細節需要反復理解。faster R-CNN使用resNet101模型作為卷積層，在voc2012數據集上可以達到83.8%的准確率，超過yolo ssd和yoloV2。其最大的問題是速度偏慢，每秒只能處理5幀，達不到實時性要求。

針對於two-stage目標檢測演算法普遍存在的運算速度慢的缺點， yolo創造性的提出了one-stage。也就是將物體分類和物體定位在一個步驟中完成。 yolo直接在輸出層回歸bounding box的位置和bounding box所屬類別，從而實現one-stage。通過這種方式， yolo可實現45幀每秒的運算速度，完全能滿足實時性要求（達到24幀每秒，人眼就認為是連續的）。它的網路結構如下圖：

主要分為三個部分：卷積層，目標檢測層，NMS篩選層。

採用Google inceptionV1網路，對應到上圖中的第一個階段，共20層。這一層主要是進行特徵提取，從而提高模型泛化能力。但作者對inceptionV1進行了改造，他沒有使用inception mole結構，而是用一個1x1的卷積，並聯一個3x3的卷積來替代。（可以認為只使用了inception mole中的一個分支，應該是為了簡化網路結構）

先經過4個卷積層和2個全連接層，最後生成7x7x30的輸出。先經過4個卷積層的目的是為了提高模型泛化能力。yolo將一副448x448的原圖分割成了7x7個網格，每個網格要預測兩個bounding box的坐標(x,y,w,h)和box內包含物體的置信度confidence，以及物體屬於20類別中每一類的概率（yolo的訓練數據為voc2012，它是一個20分類的數據集）。所以一個網格對應的參數為（4x2+2+20) = 30。如下圖

其中前一項表示有無人工標記的物體落入了網格內，如果有則為1，否則為0。第二項代表bounding box和真實標記的box之間的重合度。它等於兩個box面積交集，除以面積並集。值越大則box越接近真實位置。

分類信息： yolo的目標訓練集為voc2012，它是一個20分類的目標檢測數據集。常用目標檢測數據集如下表：

| Name | # Images (trainval) | # Classes | Last updated |

| --------------- | ------------------- | --------- | ------------ |

| ImageNet | 450k | 200 | 2015 |

| COCO | 120K | 90 | 2014 |

| Pascal VOC | 12k | 20 | 2012 |

| Oxford-IIIT Pet | 7K | 37 | 2012 |

| KITTI Vision | 7K | 3 | |

每個網格還需要預測它屬於20分類中每一個類別的概率。分類信息是針對每個網格的，而不是bounding box。故只需要20個，而不是40個。而confidence則是針對bounding box的，它只表示box內是否有物體，而不需要預測物體是20分類中的哪一個，故只需要2個參數。雖然分類信息和confidence都是概率，但表達含義完全不同。

篩選層是為了在多個結果中（多個bounding box）篩選出最合適的幾個，這個方法和faster R-CNN 中基本相同。都是先過濾掉score低於閾值的box，對剩下的box進行NMS非極大值抑制，去除掉重疊度比較高的box（NMS具體演算法可以回顧上面faster R-CNN小節）。這樣就得到了最終的最合適的幾個box和他們的類別。

yolo的損失函數包含三部分，位置誤差，confidence誤差，分類誤差。具體公式如下：

誤差均採用了均方差演算法，其實我認為，位置誤差應該採用均方差演算法，而分類誤差應該採用交叉熵。由於物體位置只有4個參數，而類別有20個參數，他們的累加和不同。如果賦予相同的權重，顯然不合理。故yolo中位置誤差權重為5，類別誤差權重為1。由於我們不是特別關心不包含物體的bounding box，故賦予不包含物體的box的置信度confidence誤差的權重為0.5，包含物體的權重則為1。

Faster R-CNN准確率mAP較高，漏檢率recall較低，但速度較慢。而yolo則相反，速度快，但准確率和漏檢率不盡人意。SSD綜合了他們的優缺點，對輸入300x300的圖像，在voc2007數據集上test，能夠達到58 幀每秒( Titan X 的 GPU )，72.1%的mAP。

SSD網路結構如下圖：

和yolo一樣，也分為三部分：卷積層，目標檢測層和NMS篩選層

SSD論文採用了VGG16的基礎網路，其實這也是幾乎所有目標檢測神經網路的慣用方法。先用一個CNN網路來提取特徵，然後再進行後續的目標定位和目標分類識別。

這一層由5個卷積層和一個平均池化層組成。去掉了最後的全連接層。SSD認為目標檢測中的物體，只與周圍信息相關，它的感受野不是全局的，故沒必要也不應該做全連接。SSD的特點如下。

每一個卷積層，都會輸出不同大小感受野的feature map。在這些不同尺度的feature map上，進行目標位置和類別的訓練和預測，從而達到多尺度檢測的目的，可以克服yolo對於寬高比不常見的物體，識別准確率較低的問題。而yolo中，只在最後一個卷積層上做目標位置和類別的訓練和預測。這是SSD相對於yolo能提高准確率的一個關鍵所在。

如上所示，在每個卷積層上都會進行目標檢測和分類，最後由NMS進行篩選，輸出最終的結果。多尺度feature map上做目標檢測，就相當於多了很多寬高比例的bounding box，可以大大提高泛化能力。

和faster R-CNN相似，SSD也提出了anchor的概念。卷積輸出的feature map，每個點對應為原圖的一個區域的中心點。以這個點為中心，構造出6個寬高比例不同，大小不同的anchor（SSD中稱為default box）。每個anchor對應4個位置參數(x,y,w,h)和21個類別概率（voc訓練集為20分類問題，在加上anchor是否為背景，共21分類）。如下圖所示：

另外，在訓練階段，SSD將正負樣本比例定位1：3。訓練集給定了輸入圖像以及每個物體的真實區域（ground true box），將default box和真實box最接近的選為正樣本。然後在剩下的default box中選擇任意一個與真實box IOU大於0.5的，作為正樣本。而其他的則作為負樣本。由於絕大部分的box為負樣本，會導致正負失衡，故根據每個box類別概率排序，使正負比例保持在1：3。SSD認為這個策略提高了4%的准確率

另外，SSD採用了數據增強。生成與目標物體真實box間IOU為0.1 0.3 0.5 0.7 0.9的patch，隨機選取這些patch參與訓練，並對他們進行隨機水平翻轉等操作。SSD認為這個策略提高了8.8%的准確率。

和yolo的篩選層基本一致，同樣先過濾掉類別概率低於閾值的default box，再採用NMS非極大值抑制，篩掉重疊度較高的。只不過SSD綜合了各個不同feature map上的目標檢測輸出的default box。

SSD基本已經可以滿足我們手機端上實時物體檢測需求了，TensorFlow在android上的目標檢測官方模型ssd_mobilenet_v1_android_export.pb，就是通過SSD演算法實現的。它的基礎卷積網路採用的是mobileNet，適合在終端上部署和運行。

針對yolo准確率不高，容易漏檢，對長寬比不常見物體效果差等問題，結合SSD的特點，提出了yoloV2。它主要還是採用了yolo的網路結構，在其基礎上做了一些優化和改進，如下

網路採用DarkNet-19：19層，裡麵包含了大量3x3卷積，同時借鑒inceptionV1，加入1x1卷積核全局平均池化層。結構如下

yolo和yoloV2隻能識別20類物體，為了優化這個問題，提出了yolo9000，可以識別9000類物體。它在yoloV2基礎上，進行了imageNet和coco的聯合訓練。這種方式充分利用imageNet可以識別1000類物體和coco可以進行目標位置檢測的優點。當使用imageNet訓練時，只更新物體分類相關的參數。而使用coco時，則更新全部所有參數。

YOLOv3可以說出來直接吊打一切圖像檢測演算法。比同期的DSSD(反卷積SSD), FPN（feature pyramid networks）准確率更高或相仿，速度是其1/3.。

YOLOv3的改動主要有如下幾點：

不過如果要求更精準的預測邊框，採用COCO AP做評估標準的話，YOLO3在精確率上的表現就弱了一些。如下圖所示。

當前目標檢測模型演算法也是層出不窮。在two-stage領域， 2017年Facebook提出了mask R-CNN 。CMU也提出了A-Fast-RCNN 演算法，將對抗學習引入到目標檢測領域。Face++也提出了Light-Head R-CNN，主要探討了 R-CNN 如何在物體檢測中平衡精確度和速度。

one-stage領域也是百花齊放，2017年首爾大學提出 R-SSD 演算法，主要解決小尺寸物體檢測效果差的問題。清華大學提出了 RON 演算法，結合 two stage 名的方法和 one stage 方法的優勢，更加關注多尺度對象定位和負空間樣本挖掘問題。

目標檢測領域的深度學習演算法，需要進行目標定位和物體識別，演算法相對來說還是很復雜的。當前各種新演算法也是層不出窮，但模型之間有很強的延續性，大部分模型演算法都是借鑒了前人的思想，站在巨人的肩膀上。我們需要知道經典模型的特點，這些tricks是為了解決什麼問題，以及為什麼解決了這些問題。這樣才能舉一反三，萬變不離其宗。綜合下來，目標檢測領域主要的難點如下：

一文讀懂目標檢測AI演算法：R-CNN，faster R-CNN，yolo，SSD，yoloV2

從YOLOv1到v3的進化之路

SSD-Tensorflow超詳細解析【一】：載入模型對圖片進行測試 https://blog.csdn.net/k87974/article/details/80606407

YOLO https://pjreddie.com/darknet/yolo/ https://github.com/pjreddie/darknet

C#項目參考：https://github.com/AlturosDestinations/Alturos.Yolo

項目實踐貼個圖。

㈢目標跟蹤檢測演算法（一）——傳統方法

姓名：劉帆；學號：20021210609；學院：電子工程學院

https://blog.csdn.net/qq_34919792/article/details/89893214

【嵌牛導讀】目標跟蹤演算法研究難點與挑戰在於實際復雜的應用環境、背景相似干擾、光照條件的變化、遮擋等外界因素以及目標姿態變化，外觀變形，尺度變化、平面外旋轉、平面內旋轉、出視野、快速運動和運動模糊等。而且當目標跟蹤演算法投入實際應用時，不可避免的一個問題——實時性問題也是非常的重要。正是有了這些問題，才使得演算法研究充滿著難點和挑戰。

【嵌牛鼻子】目標跟蹤演算法，傳統演算法

【嵌牛提問】利用目標跟蹤檢測演算法要達到何目的?第一階段的單目標追蹤演算法包括什麼?具體步驟有哪些?它們有何特點?

【嵌牛正文】

第一階段

目標跟蹤分為兩個部分，一個是對指定目標尋找可以跟蹤的特徵，常用的有顏色，輪廓，特徵點，軌跡等，另一個是對目標特徵進行跟蹤。

1、靜態背景

1）背景差：對背景的光照變化、雜訊干擾以及周期性運動等進行建模。通過當前幀減去背景圖來捕獲運動物體的過程。

2）幀差：由於場景中的目標在運動，目標的影像在不同圖像幀中的位置不同。該類演算法對時間上連續的兩幀或三幀圖像進行差分運算，不同幀對應的像素點相減，判斷灰度差的絕對值，當絕對值超過一定閾值時，即可判斷為運動目標，從而實現目標的檢測功能。

與二幀差分法不同的是，三幀差分法（交並運算）去除了重影現象，可以檢測出較為完整的物體。幀間差分法的原理簡單，計算量小，能夠快速檢測出場景中的運動目標。但幀間差分法檢測的目標不完整，內部含有「空洞」，這是因為運動目標在相鄰幀之間的位置變化緩慢，目標內部在不同幀圖像中相重疊的部分很難檢測出來。幀間差分法通常不單獨用在目標檢測中，往往與其它的檢測演算法結合使用。

3）Codebook

演算法為圖像中每一個像素點建立一個碼本，每個碼本可以包括多個碼元（對應閾值范圍），在學習階段，對當前像素點進行匹配，如果該像素值在某個碼元的學習閾值內，也就是說與之前出現過的某種歷史情況偏離不大，則認為該像素點符合背景特徵，需要更新對應點的學習閾值和檢測閾值。

如果新來的像素值與每個碼元都不匹配，則可能是由於動態背景導致，這種情況下，我們需要為其建立一個新的碼元。每個像素點通過對應多個碼元，來適應復雜的動態背景。

在應用時，每隔一段時間選擇K幀通過更新演算法建立CodeBook背景模型，並且刪除超過一段時間未使用的碼元。

4）GMM

混合高斯模型（Gaussian of Micture Models，GMM）是較常用的背景去除方法之一（其他的還有均值法、中值法、滑動平均濾波等）。

首先我們需要了解單核高斯濾波的演算法步驟：

混合高斯建模GMM（Gaussian Mixture Model）作為單核高斯背景建模的擴展，是目前使用最廣泛的一種方法，GMM將背景模型描述為多個分布，每個像素的R、G、B三個通道像素值的變化分別由一個混合高斯模型分布來刻畫，符合其中一個分布模型的像素即為背景像素。作為最常用的一種背景建模方法，GMM有很多改進版本，比如利用紋理復雜度來更新差分閾值，通過像素變化的劇烈程度來動態調整學習率等。

5）ViBe（2011）

ViBe演算法主要特點是隨機背景更新策略，這和GMM有很大不同。其步驟和GMM類似。具體的思想就是為每個像素點存儲了一個樣本集，樣本集中采樣值就是該像素點過去的像素值和其鄰居點的像素值，然後將每一個新的像素值和樣本集進行比較來判斷是否屬於背景點。

其中pt（x）為新幀的像素值，R為設定值，p1、p2、p3….為樣本集中的像素值，以pt（x）為圓心R為半徑的圓被認為成一個集，當樣本集與此集的交集大於設定的閾值#min時，可認為此為背景像素點（交集越大，表示新像素點與樣本集越相關）。我們可以通過改變#min的值與R的值來改變模型的靈敏度。

Step1：初始化單幀圖像中每個像素點的背景模型。假設每一個像素和其鄰域像素的像素值在空域上有相似的分布。基於這種假設，每一個像素模型都可以用其鄰域中的像素來表示。為了保證背景模型符合統計學規律，鄰域的范圍要足夠大。當輸入第一幀圖像時，即t=0時，像素的背景模型。其中，NG（x,y）表示空域上相鄰的像素值，f(xi,yi)表示當前點的像素值。在N次的初始化的過程中，NG（x,y）中的像素點(xi,yi)被選中的可能次數為L=1,2,3,…,N。

Step2：對後續的圖像序列進行前景目標分割操作。當t=k時，像素點(x,y)的背景模型為BKm(x,y)，像素值為fk(x,y)。按照下面判斷該像素值是否為前景。這里上標r是隨機選的；T是預先設置好的閾值。當fk(x,y)滿足符合背景#N次時，我們認為像素點fk(x,y)為背景，否則為前景。

Step3：ViBe演算法的更新在時間和空間上都具有隨機性。每一個背景點有1/ φ的概率去更新自己的模型樣本值，同時也有1/ φ的概率去更新它的鄰居點的模型樣本值。更新鄰居的樣本值利用了像素值的空間傳播特性，背景模型逐漸向外擴散，這也有利於Ghost區域的更快的識別。同時當前景點計數達到臨界值時將其變為背景，並有1/ φ的概率去更新自己的模型樣本值（為了減少緩慢移動物體的影響和攝像機的抖動）。

可以有如下總結，ViBe中的每一個像素點在更新的時候都有一個時間和空間上隨機影響的范圍，這個范圍很小，大概3x3的樣子，這個是考慮到攝像頭抖動時會有坐標的輕微來回變化，這樣雖然由於ViBe的判別方式仍認為是背景點，但是也會對後面的判別產生影響，為了保證空間的連續性，隨機更新減少了這個影響。而在樣本值保留在樣本集中的概率隨著時間的增大而變小，這就保證了像素模型在時間上面的延續特性。

6）光流

光流是由物體或相機的運動引起的圖像對象在兩個連續幀之間的視在運動模式。它是2D矢量場，其中每個矢量是一個位移矢量，顯示點從第一幀到第二幀的移動。

光流實際上是一種特徵點跟蹤方法，其計算的為向量，基於三點假設：

1、場景中目標的像素在幀間運動時亮度（像素值或其衍生值）不發生變化；2、幀間位移不能太大；3、同一表面上的鄰近點都在做相同的運動；

光流跟蹤過程：1）對一個連續視頻幀序列進行處理；2）對每一幀進行前景目標檢測；3）對某一幀出現的前景目標，找出具有代表性的特徵點（Harris角點）；4）對於前後幀做像素值比較，尋找上一幀在當前幀中的最佳位置，從而得到前景目標在當前幀中的位置信息；5）重復上述步驟，即可實現目標跟蹤

2、運動場（分為相機固定，但是視角變化和相機是運動的）

1）運動建模（如視覺里程計運動模型、速度運動模型等）

運動學是對進行剛性位移的相機進行構型，一般通過6個變數來描述，3個直角坐標，3個歐拉角（橫滾、俯仰、偏航）。

Ⅰ、對相機的運動建模

由於這個不是我們本次所要討論的重點，但是在《概率機器人》一書中提出了很多很好的方法，相機的運動需要對圖像內的像素做位移矩陣和旋轉矩陣的坐標換算。除了對相機建立傳統的速度運動模型外，也可以用視覺里程計等通關過置信度的更新來得到概率最大位置。

Ⅱ、對於跟蹤目標的運動建模

該方法需要提前通過先驗知識知道所跟蹤的目標對象是什麼，比如車輛、行人、人臉等。通過對要跟蹤的目標進行建模，然後再利用該模型來進行實際的跟蹤。該方法必須提前知道要跟蹤的目標對象是什麼，然後再去跟蹤指定的目標，這是它的局限性，因而其推廣性相對比較差。（比如已知跟蹤的物體是羽毛球，那很容易通過前幾幀的取點，來建立整個羽毛球運動的拋物線模型）

2）核心搜索演算法（常見的預測演算法有Kalman(卡爾曼)濾波、擴展卡爾曼濾波、粒子濾波）

Ⅰ、Kalman 濾波

Kalman濾波器是通過前一狀態預測當前狀態，並使用當前觀測狀態進行校正，從而保證輸出狀態平穩變化，可有效抵抗觀測誤差。因此在運動目標跟蹤中也被廣泛使用。

在視頻處理的運動目標跟蹤里，每個目標的狀態可表示為(x,y,w,h)，x和y表示目標位置，w和h表示目標寬高。一般地認為目標的寬高是不變的，而其運動速度是勻速，那麼目標的狀態向量就應該擴展為(x,y,w,h,dx,dy)，其中dx和dy是目標當前時刻的速度。通過kalman濾波器來估計每個時刻目標狀態的大致過程為：

對視頻進行運動目標檢測，通過簡單匹配方法來給出目標的第一個和第二個狀態，從第三個狀態開始，就先使用kalman濾波器預測出當前狀態，再用當前幀圖像的檢測結果作為觀測值輸入給kalman濾波器，得到的校正結果就被認為是目標在當前幀的真實狀態。(其中，Zt為測量值，為預測值，ut為控制量，Kt為增益。)

Ⅱ、擴展卡爾曼濾波（EKF）和無跡卡爾曼濾波（UKF）

由於卡爾曼濾波的假設為線性問題，無法直接用在非線性問題上，EKF和UKF解決了這個問題（這個線性問題體現在用測量量來計算預測量的過程中）。EKF是通過構建線性函數g(x)，與非線性函數相切，並對每一時刻所求得的g（x）做KF，如下圖所示。

UKF與EKF去求解雅可比矩陣擬合線性方程的方法不同，通過對那個先驗分布中的採集點，來線性化隨機變數的非線性函數。與EKF所用的方法不同，UKF產生的高斯分布和實際高斯分布更加接近，其引起的近似誤差也更小。

Ⅲ、粒子濾波

1、初始狀態：基於粒子濾波的目標追蹤方法是一種生成式跟蹤方法，所以要有一個初始化的階段。對於第一幀圖像，人工標定出待檢測的目標，對該目標區域提出特徵；

2、搜索階段：現在已經知道了目標的特徵，然後就在目標的周圍撒點(particle), 如：a)均勻的撒點;b)按高斯分布撒點，就是近的地方撒得多，遠的地方撒的少。論文里使用的是後一種方法。每一個粒子都計算所在區域內的顏色直方圖，如初始化提取特徵一樣，然後對所有的相似度進行歸一化。文中相似性使用的是巴氏距離；

3、重采樣：根據粒子權重對粒子進行篩選，篩選過程中，既要大量保留權重大的粒子，又要有一小部分權重小的粒子；

4、狀態轉移：將重采樣後的粒子帶入狀態轉移方程得到新的預測粒子；

5、測量及更新：對目標點特徵化，並計算各個粒子和目標間的巴氏距離，更新粒子的權重；

6、決策階段：每個粒子都獲得一個和目標的相似度，相似度越高，目標在該范圍出現的可能性越高，將保留的所有粒子通過相似度加權後的結果作為目標可能的位置。

3）Meanshift演算法

MeanShift演算法屬於核密度估計法，它不需要任何先驗知識而完全依靠特徵空間中樣本點的計算其密度函數值。對於一組采樣數據，直方圖法通常把數據的值域分成若干相等的區間，數據按區間分成若干組，每組數據的個數與總參數個數的比率就是每個單元的概率值；核密度估計法的原理相似於直方圖法，只是多了一個用於平滑數據的核函數。採用核函數估計法，在采樣充分的情況下，能夠漸進地收斂於任意的密度函數，即可以對服從任何分布的數據進行密度估計。

Meanshift演算法步驟

1、通過對初始點（或者上一幀的目標點）為圓心，繪制一個半徑為R的圓心，尋找特徵和該點相似的點所構成的向量；

2、所有向量相加，可以獲得一個向量疊加，這個向量指向特徵點多的方向；

3、取步驟二的向量終點為初始點重復步驟一、二，直到得到的向量小於一定的閾值，也就是說明當前位置是特徵點密度最密集的地方，停止迭代，認為該點為當前幀的目標點；

4）Camshift演算法

Camshift演算法是MeanShift演算法的改進，稱為連續自適應的MeanShift演算法。Camshift 是由Meanshift 推導而來 Meanshift主要是用在單張影像上，但是獨立一張影像分析對追蹤而言並無意義，Camshift 就是利用MeanShift的方法，對影像串列進行分析。

1、首先在影像串列中選擇目標區域。

2、計算此區域的顏色直方圖（特徵提取）。

3、用MeanShift演演算法來收斂欲追蹤的區域。

4、通過目標點的位置和向量信息計算新的窗口大小，並標示之。

5、以此為參數重復步驟三、四。

Camshift 關鍵就在於當目標的大小發生改變的時候，此演算法可以自適應調整目標區域繼續跟蹤。

3、小結

第一階段的單目標追蹤演算法基本上都是傳統方法，計算量小，在嵌入式等設備中落地較多，opencv中也預留了大量的介面。通過上面的兩節的介紹，我們不難發現，目標檢測演算法的步驟分為兩部分，一部分是對指定目標尋找可以跟蹤的特徵，常用的有顏色，輪廓，特徵點，軌跡等，另一部分是對目標特徵進行跟蹤，如上文所提及的方法。所以目標檢測方法的發展，也可總結為兩個方面，一個是如何去獲得更加具有區分性的可跟蹤的穩定特徵，另一個是如何建立幀與幀之間的數據關聯，保證跟蹤目標是正確的。

隨著以概率為基礎的卡爾曼濾波、粒子濾波或是以Meanshift為代表向量疊加方法在目標檢測的運用，使得目標檢測不再需要假設自身的一個狀態為靜止的，而是可以是運動的，更加符合復雜場景中的目標跟蹤。

㈣目標檢測演算法---faster rcnn 知識簡要回顧（測試篇）

Faster RCNN檢測部分主要可以分為四個模塊：
1.特徵抽取：用於抽取圖像特徵，一般可以使用vgg、resnet和mobilenet等backbone；
2.RPN（Region Proposal Network）：用於產生候選框，主要做一些粗糙的分類和回歸操作；
3.RoI Pooling：主要是為了解決全連接層需要固定尺寸輸入，而實際輸入大小不一的問題；
4.Classification and Regression：精細化分類和回歸。

faster rcnn演算法大致流程如下：
彩色圖像通過backbone進行特徵提取，輸出最後一層的feature map。接著將這些feature map進一步做基於3x3卷積核的特徵提取，該目的是增強模型的魯棒性。將輸出送入兩個分支，第一個分支跟類別有關，這里主要是用於簡單分類，區分是背景還是物體，這是針對anchor而言的；第二個分支則是用於初步預測候選框的偏移量，這個也是基於anchor而言的；再將前兩個分支的結果送入圖中的proposal中，首先會根據positive類的score篩選前6000個候選框，再將anchor的坐標和得到的偏移進行整合，得到初步候選框坐標，接著在做NMS,除去重疊嚴重的框，再經過了NMS後的框中，根據類別score取前300個框。然後將結果送入roi pooing層，用於生成固定尺寸的特徵區域，以方便後邊的全連接層接受信息；全連接層用於最後提取特徵，得到精細的類別和框的偏移量。

㈤經典目標檢測演算法介紹

姓名：牛曉銀；學號：20181213993；學院：計算機科學與技術

轉自：https://zhuanlan.hu.com/p/34142321

【嵌牛導讀】：目標檢測，也叫目標提取，是一種基於目標幾何和統計特徵的圖像分割。隨著計算機技術的發展和計算機視覺原理的廣泛應用，利用計算機圖像處理技術對目標進行實時跟蹤研究越來越熱門，對目標進行動態實時跟蹤定位在智能化交通系統、軍事目標檢測及醫學導航手術中手術器械定位等方面具有廣泛的應用價值。

【嵌牛鼻子】：目標檢測、檢測模型、計算機視覺

【嵌牛提問】：你知道或者用過哪些目標檢測演算法？

【嵌牛正文】：

（一）目標檢測經典工作回顧

本文結構

兩階段模型因其對圖片的兩階段處理得名，也稱為基於區域（Region-based）的方法，我們選取R-CNN系列工作作為這一類型的代表。

R-CNN: R-CNN系列的開山之作

論文鏈接： Rich feature hierarchies for accurate object detection and semantic segmentation

本文的兩大貢獻：1）CNN可用於基於區域的定位和分割物體；2）監督訓練樣本數緊缺時，在額外的數據上預訓練的模型經過fine-tuning可以取得很好的效果。第一個貢獻影響了之後幾乎所有2-stage方法，而第二個貢獻中用分類任務（Imagenet）中訓練好的模型作為基網路，在檢測問題上fine-tuning的做法也在之後的工作中一直沿用。

傳統的計算機視覺方法常用精心設計的手工特徵(如SIFT, HOG)描述圖像，而深度學習的方法則倡導習得特徵，從圖像分類任務的經驗來看，CNN網路自動習得的特徵取得的效果已經超出了手工設計的特徵。本篇在局部區域應用卷積網路，以發揮卷積網路學習高質量特徵的能力。

R-CNN將檢測抽象為兩個過程，一是基於圖片提出若干可能包含物體的區域（即圖片的局部裁剪，被稱為Region Proposal），文中使用的是Selective Search演算法；二是在提出的這些區域上運行當時表現最好的分類網路（AlexNet），得到每個區域內物體的類別。

另外，文章中的兩個做法值得注意。

一是數據的准備。輸入CNN前，我們需要根據Ground Truth對提出的Region Proposal進行標記，這里使用的指標是IoU（Intersection over Union，交並比）。IoU計算了兩個區域之交的面積跟它們之並的比，描述了兩個區域的重合程度。

文章中特別提到，IoU閾值的選擇對結果影響顯著，這里要談兩個threshold，一個用來識別正樣本（如跟ground truth的IoU大於0.5），另一個用來標記負樣本（即背景類，如IoU小於0.1），而介於兩者之間的則為難例（Hard Negatives），若標為正類，則包含了過多的背景信息，反之又包含了要檢測物體的特徵，因而這些Proposal便被忽略掉。

另一點是位置坐標的回歸（Bounding-Box Regression），這一過程是Region Proposal向Ground Truth調整，實現時加入了log/exp變換來使損失保持在合理的量級上，可以看做一種標准化（Normalization)操作。

小結

R-CNN的想法直接明了，即將檢測任務轉化為區域上的分類任務，是深度學習方法在檢測任務上的試水。模型本身存在的問題也很多，如需要訓練三個不同的模型（proposal, classification, regression）、重復計算過多導致的性能問題等。盡管如此，這篇論文的很多做法仍然廣泛地影響著檢測任務上的深度模型革命，後續的很多工作也都是針對改進這一工作而展開，此篇可以稱得上"The First Paper"。

Fast R-CNN: 共享卷積運算

論文鏈接： Fast R-CNN

文章指出R-CNN耗時的原因是CNN是在每一個Proposal上單獨進行的，沒有共享計算，便提出將基礎網路在圖片整體上運行完畢後，再傳入R-CNN子網路，共享了大部分計算，故有Fast之名。

上圖是Fast R-CNN的架構。圖片經過feature extractor得到feature map, 同時在原圖上運行Selective Search演算法並將RoI（Region of Interset，實為坐標組，可與Region Proposal混用）映射到到feature map上，再對每個RoI進行RoI Pooling操作便得到等長的feature vector，將這些得到的feature vector進行正負樣本的整理（保持一定的正負樣本比例），分batch傳入並行的R-CNN子網路，同時進行分類和回歸，並將兩者的損失統一起來。

RoI Pooling 是對輸入R-CNN子網路的數據進行准備的關鍵操作。我們得到的區域常常有不同的大小，在映射到feature map上之後，會得到不同大小的特徵張量。RoI Pooling先將RoI等分成目標個數的網格，再在每個網格上進行max pooling，就得到等長的RoI feature vector。

文章最後的討論也有一定的借鑒意義：

multi-loss traing相比單獨訓練classification確有提升

multi-scale相比single-scale精度略有提升，但帶來的時間開銷更大。一定程度上說明CNN結構可以內在地學習尺度不變性

在更多的數據(VOC)上訓練後，精度是有進一步提升的

Softmax分類器比"one vs rest"型的SVM表現略好，引入了類間的競爭

更多的Proposal並不一定帶來精度的提升

小結

Fast R-CNN的這一結構正是檢測任務主流2-stage方法所採用的元結構的雛形。文章將Proposal, Feature Extractor, Object Classification&Localization統一在一個整體的結構中，並通過共享卷積計算提高特徵利用效率，是最有貢獻的地方。

Faster R-CNN: 兩階段模型的深度化

論文鏈接： Faster R-CNN: Towards Real Time Object Detection with Region Proposal Networks

Faster R-CNN是2-stage方法的奠基性工作，提出的RPN網路取代Selective Search演算法使得檢測任務可以由神經網路端到端地完成。粗略的講，Faster R-CNN = RPN + Fast R-CNN，跟RCNN共享卷積計算的特性使得RPN引入的計算量很小，使得Faster R-CNN可以在單個GPU上以5fps的速度運行，而在精度方面達到SOTA（State of the Art，當前最佳）。

本文的主要貢獻是提出Regional Proposal Networks，替代之前的SS演算法。RPN網路將Proposal這一任務建模為二分類（是否為物體）的問題。

第一步是在一個滑動窗口上生成不同大小和長寬比例的anchor box（如上圖右邊部分），取定IoU的閾值，按Ground Truth標定這些anchor box的正負。於是，傳入RPN網路的樣本數據被整理為anchor box（坐標）和每個anchor box是否有物體（二分類標簽）。RPN網路將每個樣本映射為一個概率值和四個坐標值，概率值反應這個anchor box有物體的概率，四個坐標值用於回歸定義物體的位置。最後將二分類和坐標回歸的損失統一起來，作為RPN網路的目標訓練。

由RPN得到Region Proposal在根據概率值篩選後經過類似的標記過程，被傳入R-CNN子網路，進行多分類和坐標回歸，同樣用多任務損失將二者的損失聯合。

小結

Faster R-CNN的成功之處在於用RPN網路完成了檢測任務的"深度化"。使用滑動窗口生成anchor box的思想也在後來的工作中越來越多地被採用（YOLO v2等）。這項工作奠定了"RPN+RCNN"的兩階段方法元結構，影響了大部分後續工作。

單階段（1-stage）檢測模型

單階段模型沒有中間的區域檢出過程，直接從圖片獲得預測結果，也被成為Region-free方法。

YOLO

論文鏈接： You Only Look Once: Unified, Real-Time Object Detection

YOLO是單階段方法的開山之作。它將檢測任務表述成一個統一的、端到端的回歸問題，並且以只處理一次圖片同時得到位置和分類而得名。

YOLO的主要優點：

快。

全局處理使得背景錯誤相對少，相比基於局部（區域）的方法，如Fast RCNN。

泛化性能好，在藝術作品上做檢測時，YOLO表現比Fast R-CNN好。

YOLO的工作流程如下：

1.准備數據：將圖片縮放，劃分為等分的網格，每個網格按跟Ground Truth的IoU分配到所要預測的樣本。

2.卷積網路：由GoogLeNet更改而來，每個網格對每個類別預測一個條件概率值，並在網格基礎上生成B個box，每個box預測五個回歸值，四個表徵位置，第五個表徵這個box含有物體（注意不是某一類物體）的概率和位置的准確程度（由IoU表示）。測試時，分數如下計算：

等式左邊第一項由網格預測，後兩項由每個box預測，以條件概率的方式得到每個box含有不同類別物體的分數。因而，卷積網路共輸出的預測值個數為S×S×(B×5+C)，其中S為網格數，B為每個網格生成box個數，C為類別數。

3.後處理：使用NMS（Non-Maximum Suppression，非極大抑制）過濾得到最後的預測框

損失函數的設計

損失函數被分為三部分：坐標誤差、物體誤差、類別誤差。為了平衡類別不均衡和大小物體等帶來的影響，損失函數中添加了權重並將長寬取根號。

小結

YOLO提出了單階段的新思路，相比兩階段方法，其速度優勢明顯，實時的特性令人印象深刻。但YOLO本身也存在一些問題，如劃分網格較為粗糙，每個網格生成的box個數等限制了對小尺度物體和相近物體的檢測。

SSD: Single Shot Multibox Detector

論文鏈接： SSD: Single Shot Multibox Detector

SSD相比YOLO有以下突出的特點：

多尺度的feature map：基於VGG的不同卷積段，輸出feature map到回歸器中。這一點試圖提升小物體的檢測精度。

更多的anchor box，每個網格點生成不同大小和長寬比例的box，並將類別預測概率基於box預測（YOLO是在網格上），得到的輸出值個數為(C+4)×k×m×n，其中C為類別數，k為box個數，m×n為feature map的大小。

小結

SSD是單階段模型早期的集大成者，達到跟接近兩階段模型精度的同時，擁有比兩階段模型快一個數量級的速度。後續的單階段模型工作大多基於SSD改進展開。

檢測模型基本特點

最後，我們對檢測模型的基本特徵做一個簡單的歸納。

檢測模型整體上由基礎網路（Backbone Network）和檢測頭部（Detection Head）構成。前者作為特徵提取器，給出圖像不同大小、不同抽象層次的表示；後者則依據這些表示和監督信息學習類別和位置關聯。檢測頭部負責的類別預測和位置回歸兩個任務常常是並行進行的，構成多任務的損失進行聯合訓練。

相比單階段，兩階段檢測模型通常含有一個串列的頭部結構，即完成前背景分類和回歸後，把中間結果作為RCNN頭部的輸入再進行一次多分類和位置回歸。這種設計帶來了一些優點：

對檢測任務的解構，先進行前背景的分類，再進行物體的分類，這種解構使得監督信息在不同階段對網路參數的學習進行指導

RPN網路為RCNN網路提供良好的先驗，並有機會整理樣本的比例，減輕RCNN網路的學習負擔

這種設計的缺點也很明顯：中間結果常常帶來空間開銷，而串列的方式也使得推斷速度無法跟單階段相比；級聯的位置回歸則會導致RCNN部分的重復計算（如兩個RoI有重疊）。

另一方面，單階段模型只有一次類別預測和位置回歸，卷積運算的共享程度更高，擁有更快的速度和更小的內存佔用。讀者將會在接下來的文章中看到，兩種類型的模型也在互相吸收彼此的優點，這也使得兩者的界限更為模糊。

㈥ yolo演算法是什麼

yolo演算法是一種目標檢測演算法。目標檢測任務的目標是找到圖像中的所有感興趣區域，並確定這些區域的位置和類別概率。目標檢測領域的深度學習方法主要分為兩大類兩階段式（Two-stage）目標檢測演算法和單階段式（One-stage）目標檢測演算法。兩階段式是先由演算法生成一系列候選邊界框作為樣本，然後再通過卷積神經網路分類這些樣本。

yolo演算法原理

因為它採用深層卷積神經網路，吸收了當前很多經典卷積神經網路架構的優秀思想，在位置檢測和對象的識別方面，性能達到最優（准確率非常高的情況下還能達到實時檢測）。因為作者還將代碼開源了。真心為作者這種大公無私的心胸點贊。

美中不足的是雖然將代碼開源，但是在論文介紹架構原理的時候比較模糊，特別是對一些重要改進，基本上是一筆帶過。現在在網路上有很多關於YOLO原理的講解。

㈦計算機視覺——典型的目標檢測演算法(OverFeat演算法)（二）

【嵌牛導讀】目標檢測在現實中的應用很廣泛，我們需要檢測數字圖像中的物體位置以及類別，它需要我們構建一個模型，模型的輸入一張圖片，模型的輸出需要圈出圖片中所有物體的位置以及物體所屬的類別。在深度學習浪潮到來之前，目標檢測精度的進步十分緩慢，靠傳統依靠手工特徵的方法來提高精度已是相當困難的事。而ImageNet分類大賽出現的卷積神經網路（CNN）——AlexNet所展現的強大性能，吸引著學者們將CNN遷移到了其他的任務，這也包括著目標檢測任務，近年來，出現了很多目標檢測演算法。

【嵌牛鼻子】計算機視覺

【嵌牛提問】如何理解目標檢測演算法——OverFeat

【嵌牛正文】

一、深度學習的典型目標檢測演算法

深度學習目標檢測演算法主要分為雙階段檢測演算法和單階段檢測演算法，如圖1所示。

雙階段目標檢測演算法先對圖像提取候選框，然後基於候選區域做二次修正得到檢測結果，檢測精度較高，但檢測速度較慢;單階段目標驗測演算法直接對圖像進行計算生成檢測結果，檢測速度快,但檢測精度低。

1、雙階段目標檢測演算法

雙階段目標檢測方法主要通過選擇性搜索（Selective Search）或者Edge Boxes等演算法對輸入圖像選取可能包含檢測目標的候選區域（Region Proposal），再對候選區域進行分類和位置回歸以得到檢測結果。

1.1 OverFeat 演算法

《OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks》

Sermanet 等改進AlexNet 提出 OverFeat 演算法。該演算法結合AlexNet通過多尺度滑動窗口實現特徵提取功能，並且共享特徵提取層，應用於圖像分類、定位和目標檢測等任務。

關鍵技術：

1、FCN（全卷積神經網路）

對於一個各層參數結構都設計好的網路模型，要求輸入圖片的尺寸是固定的（例如，Alexnet要求輸入圖片的尺寸為227px*227px）。如果輸入一張500*500的圖片，希望模型仍然可以一直前向傳導，即一個已經設計完畢的網路，可以輸入任意大小的圖片，這就是FCN。

FCN的思想在於：

1、從卷積層到全連接層，看成是對一整張圖片的卷積層運算。

2、從全連接層到全連接層，看成是採用1*1大小的卷積核，進行卷積層運算。

如上圖所示，綠色部分代表卷積核大小。假設一個CNN模型，其輸入圖片大小是14*14，通過第一層卷積後得到10*10大小的圖片，然後接著通過池化得到了5*5大小的圖片。像但是對於像素值為5*5的圖片到像素值為1*1的圖片的過程中：

（1）傳統的CNN：如果從以前的角度進行理解的話，那麼這個過程就是全連接層，我們會把這個5*5大小的圖片，展平成為一維向量進行計算。

（2）FCN：FCN並不是把5*5的圖片展平成一維向量再進行計算，而是直接採用5*5的卷積核，對一整張圖片進行卷積運算。

二者本質上是相同的，只是角度不同，FCN把這個過程當成了對一整張特徵圖進行卷積，同樣，後面的全連接層也是把它當做是以1*1大小的卷積核進行卷積運算。

當輸入一張任意大小的圖片，就需要利用以上所述的網路，例如輸入一張像素為16*16的圖片：

根據上圖，該網路最後的輸出是一張2*2的圖片。可見採用FCN網路可以輸入任意大小的圖片。同時需要注意的是網路最後輸出的圖片大小不在是一個1*1大小的圖片，而是一個與輸入圖片大小息息相關的一張圖片。

Overfeat就是把採用FCN的思想把全連接層看成了卷積層，在網路測試階段可以輸入任意大小的圖片。

2、offset max-pooling

簡單起見，不用二維的圖像作為例子，而是採用一維作為示例：

如上圖所示，在X軸上有20個神經元，並且選擇池化size=3的非重疊池化，那麼根據之前所學的方法應該是：對上面的20個神經元，從1位置開始進行分組，每3個連續的神經元為一組，然後計算每組的最大值(最大池化)，19、20號神經元將被丟棄，如下圖所示：

或者可以在20號神經元後面，添加一個數值為0的神經元編號21，與19、20成為一組，這樣可以分成7組:[1,2,3]，[4,5,6]……,

[16,17,18],[19,20,21]，最後計算每組的最大值。

如果只分6組，除了以1作為初始位置進行連續組合之外，也可以從位置2或者3開始進行組合。也就是說其實有3種池化組合方法：

A、△=0分組:[1,2,3]，[4,5,6]……,[16,17,18]；

B、△=1分組:[2,3,4]，[5,6,7]……,[17,18,19]；

C、△=2分組:[3,4,5]，[6,7,8]……,[18,19,20]；

對應圖片如下：

以往的CNN中，一般只用△=0的情況，得到池化結果後，就送入了下一層。但是該文獻的方法是，把上面的△=0、△=1、△=2的三種組合方式的池化結果，分別送入網路的下一層。這樣的話，網路在最後輸出的時候，就會出現3種預測結果了。

前面所述是一維的情況，如果是2維圖片的話，那麼(△x,△y)就會有9種取值情況(3*3)；如果我們在做圖片分類的時候，在網路的某一個池化層加入了這種offset 池化方法，然後把這9種池化結果，分別送入後面的網路層，最後的圖片分類輸出結果就可以得到9個預測結果(每個類別都可以得到9種概率值，然後我們對每個類別的9種概率，取其最大值，做為此類別的預測概率值)。

演算法原理：

文獻中的演算法，就是把這兩種思想結合起來，形成了文獻最後測試階段的演算法。

1、論文的網路架構與訓練階段

(1)網路架構

對於網路的結構，文獻給出了兩個版本——快速版、精確版，一個精度比較高但速度慢；另外一個精度雖然低但是速度快。下面是高精度版本的網路結構表相關參數：

表格參數說明：

網路輸入：圖片大小為221px*221px；

網路結構方面基本上和AlexNet相同，使用了ReLU激活，最大池化。不同之處在於：(a)作者沒有使用局部響應歸一化層；(b)然後也沒有採用重疊池化的方法；(c)在第一層卷積層，stride作者是選擇了2，這個與AlexNet不同（AlexNet選擇的跨步是4，在網路中，如果stride選擇比較大得話，雖然可以減少網路層數，提高速度，但是卻會降低精度）。

需要注意的是把f7這一層，看成是卷積核大小為5*5的卷積層，總之就是需要把網路看成前面所述的FCN模型，去除了全連接層的概念，因為在測試階段可不是僅僅輸入221*221這樣大小的圖片，在測試階段要輸入各種大小的圖片，具體請看後面測試階段的講解。

(2)網路訓練

訓練輸入：對於每張原圖片為256*256，然後進行隨機裁剪為221*221的大小作為CNN輸入，進行訓練。

優化求解參數設置：訓練的min-batchs選擇128，權重初始化選擇高斯分布的隨機初始化：

然後採用隨機梯度下降法，進行優化更新，動量項參數大小選擇0.6，L2權重衰減系數大小選擇10-5次方。學習率初始化值為0.05，根據迭代次數的增加，每隔幾十次的迭代後，就把學習率的大小減小一半。

然後就是DropOut，這個只有在最後的兩個全連接層，才採用dropout，dropout比率選擇0.5。

2、網路測試階段

在Alexnet的文獻中，預測方法是輸入一張圖片256*256，然後進行multi-view裁剪，也就是從圖片的四個角進行裁剪，還有就是一圖片的中心進行裁剪，這樣可以裁剪到5張224*224的圖片。然後把原圖片水平翻轉一下，再用同樣的方式進行裁剪，又可以裁剪到5張圖片。把這10張圖片作為輸入，分別進行預測分類，在後在softmax的最後一層，求取個各類的總概率，求取平均值。

然而Alexnet這種預測方法存在兩個問題：

一方面這樣的裁剪方式，把圖片的很多區域都給忽略了，這樣的裁剪方式，剛好把圖片物體的一部分給裁剪掉了；

另一方面，裁剪窗口重疊存在很多冗餘的計算，像上面要分別把10張圖片送入網路，可見測試階段的計算量還是較大的。

Overfeat演算法：

訓練完上面所說的網路之後，在測試階段不再是用一張221*221大小的圖片了作為網路的輸入，而是用了6張大小都不相同的圖片，也就是所謂的多尺度輸入預測，如下表格所示：

當網路前向傳導到layer 5的時候，就利用了前面所述的FCN、offset pooling這兩種思想的相結合。現以輸入一張圖片為例(6張圖片的計算方法都相同)，講解layer 5後面的整體過程，具體流程示意圖如下：

步驟一：

對於某個尺度的圖片，經過前五層的卷積後得到特徵圖。上圖中特徵圖的解析度是20x23，256個通道。

步驟二：

對於該特徵圖，重復多次使用非重疊的池化，每次池化的偏置不同，有行偏置和列偏置。上圖中偏置池化3次，偏置分別為為(0,1,2)。這就是offset pooling，也被稱為fine stride。offset pooling得到的特徵圖的維度為6x7x3x3xD，其中6x7是特徵圖的解析度，3x3是偏置池化的次數，D是通道數。上圖中是以1維顯示的。

步驟三：

池化後得到的特徵圖將被送入分類器。

步驟四：

分類器的輸入是的5x5xD，輸出是C(類別數)維向量。但是offset pooling後得到的特徵圖並不是5x5xD，比如上圖中的特徵圖大小為6x7xD，因此分類器以滑動窗口的方式應用在特徵圖上，每個滑動窗口經過分類器輸出一個C維向量。比如上圖中輸入的6x7xD的特徵圖最終得到2x3xC的輸出，其中2x3是滑動窗口的個數。

步驟五：

而2x3xC只是一組偏置池化的輸出，總的輸出為2x3x3x3xC，將輸出的張量reshape，得到6x9xC輸出張量。最終輸出分類張量為3d張量，即兩個解析度維度 x C維。

然後需要在後面把它們拉成一維向量，這樣在一個尺度上，可以得到一個C*N個預測值矩陣，每一列就表示圖片屬於某一類別的概率值，並且求取每一列的最大值，作為本尺度的每個類別的概率值。

最後一共用了6種不同尺度(文獻使用了12張，另外6張是水平翻轉的圖片)進行做預測，然後把這六種尺度結果再做一個平均，作為最最後的結果。

從上面過程可以看到整個網路分成兩部分：layer 1~5這五層稱之為特徵提取層；layer 6~output稱之為分類層。

六、定位任務

用於定位任務的時候，就把分類層(上面的layer 6~output)給重新設計一下，把分類改成回歸問題，然後在各種不同尺度上訓練預測物體的bounding box。

㈧目標檢測演算法的分步介紹（第 1 部分）

英文原文： https://www.analyticsvidhya.com/blog/2018/10/a-step-by-step-introction-to-the-basic-object-detection-algorithms-part-1/
對原文的表達有部分改動

在本文中，我們將更深入地研究可用於目標檢測的各種演算法。我們將從 RCNN 家族的演算法開始，即 RCNN、Fast RCNN 和 Faster RCNN。在本系列即將發布的文章中，我們將介紹更高級的演算法，如 YOLO、SSD 等。

下圖是說明目標檢測演算法如何工作的一個流行示例。圖像中的每個物體，從一個人到一隻風箏，都以一定的精度被定位和識別。

讓我們從最簡單的深度學習方法開始，也是一種廣泛使用的方法，用於檢測圖像中的目標——卷積神經網路（ CNN）。CNN 的內部工作原理如下：

我們將圖像傳遞給網路，然後通過各種卷積和池化層處理，發送給全連接層。最後，我們以目標類別的形式獲得輸出。這相當簡單，不是嗎？對於每個輸入圖像，我們得到一個相應的類作為輸出。我們可以使用這種技術來檢測圖像中的各種目標嗎？讓我們看看如何使用 CNN 解決一般的目標檢測問題。

使用這種方法的問題在於圖像中的目標可能具有不同的縱橫比和空間位置。例如，在某些情況下，目標可能覆蓋圖像的大部分，而在某些情況下，目標可能僅覆蓋圖像的一小部分。目標的形狀也可能不同（在現實生活中經常發生）。由於這些因素，我們將需要大量的區域，從而導致大量的計算時間。因此，為了解決這個問題並減少區域數量，我們可以使用基於區域的 CNN，它使用提案法選擇區域。讓我們了解這個基於區域的 CNN 可以為我們做什麼。

與在大量區域上工作不同的是，RCNN 演算法是在圖像中選取一堆框並檢查這些框中是否有任何一個包含任何目標。 RCNN 使用 selective search 從圖像中提取這些框（這些框稱為 regions）。

讓我們首先了解什麼是 selective search 以及它如何識別不同的 regions。基本上四個模式可以構成一個物體：不同的尺度、顏色、紋理和外殼。selective search 識別圖像中的這些模式，並在此基礎上提出各種regions。以下是selective search 工作原理的簡要概述：

舉個例子：

到目前為止，我們已經看到了 RCNN 如何實現目標檢測。但是這種技術有其自身的局限性。由於以下步驟，訓練 RCNN 模型既昂貴又緩慢：

所有這些過程結合起來使 RCNN 非常慢。對每張新圖像進行預測大約需要 40-50 秒，這實質上使得模型在面對龐大的數據集時變得笨重且幾乎無法構建。

好消息是——我們有另一種目標檢測技術，它修復了我們在 RCNN 中看到的大部分問題。

我們還能做些什麼來減少 RCNN 演算法通常需要的計算時間？我們是否可以每張圖像只運行一次並獲取所有感興趣的區域（包含某個目標的區域）。

RCNN 的作者 Ross Girshick 提出了這個想法，即每張圖像只運行一次 CNN，然後找到一種方法在 2,000 個區域之間共享該計算。在 Fast RCNN 中，我們將輸入圖像提供給 CNN，後者反過來生成卷積特徵圖。使用這些地圖，提取提議的區域。然後我們使用 RoI 池化層將所有提議的區域重塑為固定大小，以便可以將其饋入全連接網路。

讓我們將其分解為簡化概念的步驟：

因此，Fast RCNN 不是使用三個不同的模型（如 RCNN），而是使用單個模型從區域中提取特徵，將它們分成不同的類，並同時返回識別類的邊界框。

為了進一步分解，我將對每個步驟進行可視化。

這就是 Fast RCNN 如何解決 RCNN 的兩個主要問題，1. 將每個圖像的一個而不是 2,000 個區域傳遞給 ConvNet。2. 使用一個而不是三個不同的模型來提取特徵、分類和生成邊界框。

但即使是 Fast RCNN 也存在某些問題。它還使用 selective search 作為尋找感興趣區域的建議方法，這是一個緩慢且耗時的過程。每張圖像檢測目標大約需要 2 秒，這與 RCNN 相比要好得多。但是當我們考慮大型現實生活數據集時，即使是 Fast RCNN 看起來也不那麼快了。

Faster RCNN 是 Fast RCNN 的修改版本。它們之間的主要區別在於 Fast RCNN 使用 selective search 來生成感興趣的區域，而 Faster RCNN 使用 Region Proposal Network ，又名 RPN。 RPN 將圖像特徵圖作為輸入並生成一組目標提議，每個提議的目標以分數作為輸出。

Faster RCNN 方法通常遵循以下步驟：

讓我簡要解釋一下這個區域提議網路（RPN）實際上是如何工作的。

首先，Faster RCNN 從 CNN 獲取特徵圖並將它們傳遞給區域提議網路。 RPN 在這些特徵圖上使用一個滑動窗口，在每個窗口，它生成 k 個不同形狀和大小的 Anchor 框：

Anchor 框是固定大小的邊界框，它們放置在整個圖像中，具有不同的形狀和大小。對於每個 Anchor，RPN 預測兩件事：

我們現在有不同形狀和大小的邊界框，它們被傳遞到 RoI 池化層。在 RPN 步驟之後，有可能存在沒有分配給它們的類別提議。我們可以獲取每個建議並對其進行裁剪，以便每個建議都包含一個目標。這就是 RoI 池化層所做的。它為每個錨點提取固定大小的特徵圖：

然後將這些特徵圖傳遞到具有 softmax 和線性回歸層的全連接層。它最終對目標進行分類並預測已識別目標的邊界框。

到目前為止，我們討論的所有目標檢測演算法都使用區域來識別目標。網路不會一次性查看完整圖像，而是依次關注圖像的各個部分。這會造成兩個並發症：

㈨【目標檢測演算法解讀】yolo系列演算法二

https://blog.csdn.net/Gentleman_Qin/article/details/84349144

|聲明：遵循CC 4.0 BY-SA版權協議

    建立在YOLOv1的基礎上，經過Joseph Redmon等的改進，YOLOv2和YOLO9000演算法在2017年CVPR上被提出，並獲得最佳論文提名，重點解決YOLOv1召回率和定位精度方面的誤差。在提出時，YOLOv2在多種監測數據集中都要快過其他檢測系統，並可以在速度與精確度上進行權衡。

    YOLOv2採用Darknet-19作為特徵提取網路，增加了批量標准化（Batch Normalization）的預處理，並使用224×224和448×448兩階段訓練ImageNet，得到預訓練模型後fine-tuning。

    相比於YOLOv1是利用FC層直接預測Bounding Box的坐標，YOLOv2借鑒了FSR-CNN的思想，引入Anchor機制，利用K-Means聚類的方式在訓練集中聚類計算出更好的Anchor模板，在卷積層使用Anchor Boxes操作，增加Region Proposal的預測，同時採用較強約束的定位方法，大大提高演算法召回率。同時結合圖像細粒度特徵，將淺層特徵與深層特徵相連，有助於對小尺寸目標的檢測。

    下圖所示是YOLOv2採取的各項改進帶了的檢測性能上的提升：

    YOLO9000 的主要檢測網路也是YOLO v2，同時使用WordTree來混合來自不同的資源的訓練數據，並使用聯合優化技術同時在ImageNet和COCO數據集上進行訓練，目的是利用數量較大的分類數據集來幫助訓練檢測模型，因此，YOLO 9000的網路結構允許實時地檢測超過9000種物體分類，進一步縮小了檢測數據集與分類數據集之間的大小代溝。

    下面將具體分析YOLOv2的各個創新點:

BN概述：

    對數據進行預處理（統一格式、均衡化、去噪等）能夠大大提高訓練速度，提升訓練效果。BN正是基於這個假設的實踐，對每一層輸入的數據進行加工。

    BN是2015年Google研究員在論文《Batch Normalization: Accelerating Deep Network Training by Recing Internal Covariate Shift》一文中提出的，同時也將BN應用到了2014年的GoogLeNet上，也就是Inception-v2。

    BN層簡單講就是對網路的每一層的輸入都做了歸一化，這樣網路就不需要每層都去學數據的分布，收斂會更快。YOLOv1演算法（採用的是GoogleNet網路提取特徵）是沒有BN層的，而在YOLOv2中作者為每個卷積層都添加了BN層。

    使用BN對網路進行優化，讓網路提高了收斂性，同時還消除了對其他形式的正則化（regularization）的依賴，因此使用BN後可以從模型中去掉Dropout，而不會產生過擬合。

BN優點：

神經網路每層輸入的分布總是發生變化，加入BN，通過標准化上層輸出，均衡輸入數據分布，加快訓練速度，因此可以設置較大的學習率（Learning Rate）和衰減（Decay）；

通過標准化輸入，降低激活函數（Activation Function）在特定輸入區間達到飽和狀態的概率，避免梯度彌散（Gradient Vanishing）問題；

輸入標准化對應樣本正則化，BN在一定程度上可以替代 Dropout解決過擬合問題。

BN演算法：

    在卷積或池化之後，激活函數之前，對每個數據輸出進行標准化，方式如下圖所示：

    公式很簡單，前三行是 Batch內數據歸一化（假設一個Batch中有每個數據），同一Batch內數據近似代表了整體訓練數據。第四行引入了附加參數 γ 和 β，此二者的取值演算法可以參考BN論文，在此不再贅述。

    fine-tuning：用已經訓練好的模型，加上自己的數據集，來訓練新的模型。即使用別人的模型的前幾層，來提取淺層特徵，而非完全重新訓練模型，從而提高效率。一般新訓練模型准確率都會從很低的值開始慢慢上升，但是fine-tuning能夠讓我們在比較少的迭代次數之後得到一個比較好的效果。

    YOLO模型分為兩部分，分類模型和檢測模型，前者使用在ImageNet上預訓練好的模型，後者在檢測數據集上fine-tuning。

    YOLOv1在預訓練時採用的是224*224的輸入（在ImageNet數據集上進行），然後在檢測的時候採用448*448的輸入，這會導致從分類模型切換到檢測模型的時候，模型還要適應圖像解析度的改變。

    YOLOv2則將預訓練分成兩步：先用224*224的輸入在ImageNet數據集訓練分類網路，大概160個epoch（將所有訓練數據循環跑160次）後將輸入調整到448*448，再訓練10個epoch（這兩步都是在ImageNet數據集上操作）。然後利用預訓練得到的模型在檢測數據集上fine-tuning。這樣訓練得到的模型，在檢測時用448*448的圖像作為輸入可以順利檢測。

    YOLOv1將輸入圖像分成7*7的網格，每個網格預測2個Bounding Box，因此一共有98個Box，同時YOLOv1包含有全連接層，從而能直接預測Bounding Boxes的坐標值，但也導致丟失較多的空間信息，定位不準。

    YOLOv2首先將YOLOv1網路的FC層和最後一個Pooling層去掉，使得最後的卷積層可以有更高解析度的特徵，然後縮減網路，用416*416大小的輸入代替原來的448*448，使得網路輸出的特徵圖有奇數大小的寬和高，進而使得每個特徵圖在劃分單元格（Cell）的時候只有一個中心單元格（Center Cell）。

    為什麼希望只有一個中心單元格呢？由於圖片中的物體都傾向於出現在圖片的中心位置，特別是比較大的物體，所以有一個單元格單獨位於物體中心的位置用於預測這些物體。

    YOLOv2通過引入Anchor Boxes，通過預測Anchor Box的偏移值與置信度，而不是直接預測坐標值。YOLOv2的卷積層採用32這個值來下采樣圖片，所以通過選擇416*416用作輸入尺寸最終能輸出一個13*13的特徵圖。若採用FSRCNN中的方式，每個Cell可預測出9個Anchor Box，共13*13*9=1521個（YOLOv2確定Anchor Boxes的方法見是維度聚類，每個Cell選擇5個Anchor Box）。

    在FSRCNN中，以一個51*39大小的特徵圖為例，其可以看做一個尺度為51*39的圖像，對於該圖像的每一個位置，考慮9個可能的候選窗口：3種面積3種比例。這些候選窗口稱為Anchor Boxes。下圖示出的是51*39個Anchor Box中心，以及9種Anchor Box示例。

YOLOv1和YOLOv2特徵圖數據結構：

YOLOv1：S*S* (B*5 + C) => 7*7（2*5+20）

    其中B對應Box數量，5對應邊界框的定位信息（w,y,w,h）和邊界框置信度（Confidience）。解析度是7*7，每個Cell預測2個Box，這2個Box共用1套條件類別概率（1*20）。

YOLOv2：S*S*K* (5 + C) => 13*13*9（5+20）

    解析度提升至13*13，對小目標適應性更好，借鑒了FSRCNN的思想，每個Cell對應K個Anchor box（YOLOv2中K=5），每個Anchor box對應1組條件類別概率（1*20）。

    聚類：聚類是指事先沒有「標簽」而通過某種成團分析找出事物之間存在聚集性原因的過程。即在沒有劃分類別的情況下，根據數據相似度進行樣本分組。

    在FSR-CNN中Anchor Box的大小和比例是按經驗設定的，然後網路會在訓練過程中調整Anchor Box的尺寸，最終得到准確的Anchor Boxes。若一開始就選擇了更好的、更有代表性的先驗Anchor Boxes，那麼網路就更容易學到准確的預測位置。

    YOLOv2使用K-means聚類方法類訓練Bounding Boxes，可以自動找到更好的寬高維度的值用於一開始的初始化。傳統的K-means聚類方法使用的是歐氏距離函數，意味著較大的Anchor Boxes會比較小的Anchor Boxes產生更多的錯誤，聚類結果可能會偏離。由於聚類目的是確定更精準的初始Anchor Box參數，即提高IOU值，這應與Box大小無關，因此YOLOv2採用IOU值為評判標准，即K-means 採用的距離函數（度量標准）為：

d(box,centroid) = 1 - IOU(box,centroid)

    如下圖，左邊是聚類的簇個數和IOU的關系，兩條曲線分別代表兩個不同的數據集。分析聚類結果並權衡模型復雜度與IOU值後，YOLOv2選擇K=5，即選擇了5種大小的Box 維度來進行定位預測。

    其中紫色和灰色也是分別表示兩個不同的數據集，可以看出其基本形狀是類似的。更重要的是，可以看出聚類的結果和手動設置的Anchor Box位置和大小差別顯著——結果中扁長的框較少，而瘦高的框更多（更符合行人的特徵）。

    YOLOv2採用的5種Anchor的Avg IOU是61，而採用9種Anchor Boxes的Faster RCNN的Avg IOU是60.9，也就是說本文僅選取5種box就能達到Faster RCNN的9中box的效果。選擇值為9的時候，AVG IOU更有顯著提高。說明K-means方法的生成的boxes更具有代表性。

    直接對Bounding Boxes求回歸會導致模型不穩定，其中心點可能會出現在圖像任何位置，有可能導致回歸過程震盪，甚至無法收斂，尤其是在最開始的幾次迭代的時候。大多數不穩定因素產生自預測Bounding Box的中心坐標（x,y）位置的時候。

    YOLOv2的網路在特徵圖（13*13）的每一個單元格中預測出5個Bounding Boxes（對應5個Anchor Boxes），每個Bounding Box預測出5個值（tx,ty,tw,th,t0），其中前4個是坐標偏移值，t0是置信度結果（類似YOLOv1中的邊界框置信度Confidence）。YOLOv2借鑒了如下的預測方式，即當Anchor Box的中心坐標和寬高分別是（xa,ya）和（wa,wh）時，Bounding Box坐標的預測偏移值（tx,ty,tw,th）與其坐標寬高（x,y,w,h）的關系如下：

tx = (x-xa)/wa

ty= (y-ya)/ha

tw = log(w/wa)

th = log(h/ha)

    基於這種思想，YOLOv2在預測Bounding Box的位置參數時採用了如下強約束方法：

    上圖中，黑色虛線框是Anchor Box，藍色矩形框就是預測的Bounding Box結果，預測出的Bounding Box的坐標和寬高為（bx,by）和（bw,bh），計算方式如圖中所示，其中：對每個Bounding Box預測出5個值（tx,ty,tw,th,t0），Cell與圖像左上角的橫縱坐標距離為（cx,cy），σ定義為sigmoid激活函數（將函數值約束到［0,1］），該Cell對應的Anchor Box對應的寬高為（pw,ph）。

    簡而言之，（bx,by）就是（cx,cy）這個Cell附近的Anchor Box針對預測值（tx,ty）得到的Bounding Box的坐標預測結果，同時可以發現這種方式對於較遠距離的Bounding Box預測值（tx,ty）能夠得到很大的限制。

    YOLOv2通過添加一個轉移層，把高解析度的淺層特徵連接到低解析度的深層特徵（把特徵堆積在不同Channel中）而後進行融合和檢測。具體操作是先獲取前層的26*26的特徵圖，將其同最後輸出的13*13的特徵圖進行連接，而後輸入檢測器進行檢測（檢測器的FC層起到了全局特徵融合的作用），以此來提高對小目標的檢測能力。

    為了適應不同尺度下的檢測任務，YOLOv2在訓練網路時，其在檢測數據集上fine-tuning時候採用的輸入圖像的size是動態變化的。具體來講，每訓練10個Batch，網路就會隨機選擇另一種size的輸入圖像。因為YOLOv2用到了參數是32的下采樣，因此也採用32的倍數作為輸入的size，即採用{320,352,…,608}的輸入尺寸（網路會自動改變尺寸，並繼續訓練的過程）。

這一策略讓網路在不同的輸入尺寸上都能達到較好的預測效果，使同一網路能在不同解析度上進行檢測。輸入圖片較大時，檢測速度較慢，輸入圖片較小時，檢測速度較快，總體上提高了准確率，因此多尺度訓練算是在准確率和速度上達到一個平衡。

    上表反映的是在檢測時，不同大小的輸入圖片情況下的YOLOv2和其他目標檢測演算法的對比。可以看出通過多尺度訓練的檢測模型，在測試的時候，輸入圖像在尺寸變化范圍較大的情況下也能取得mAP和FPS的平衡。

    YOLOv1採用的訓練網路是GoogleNet，YOLOv2採用了新的分類網路Darknet-19作為基礎網路，它使用了較多的3*3卷積核，並把1*1的卷積核置於3*3的卷積核之間，用來壓縮特徵，同時在每一次池化操作後把通道（Channels）數翻倍（借鑒VGG網路）。

    YOLOv1採用的GooleNet包含24個卷積層和2個全連接層，而Darknet-19包含19個卷積層和5個最大池化層（Max Pooling Layers），後面添加Average Pooling層（代替v1中FC層），而Softmax分類器作為激活被用在網路最後一層，用來進行分類和歸一化。

    在ImageNet數據集上進行預訓練，主要分兩步（採用隨機梯度下降法）：

輸入圖像大小是224*224，初始學習率（Learning Rate）為0.1，訓練160個epoch，權值衰減（Weight Decay）為0.0005，動量（Momentum）為0.9，同時在訓練時採用標準的數據增強（Data Augmentation）方式如隨機裁剪、旋轉以及色度、亮度的調整。

fine-tuning：第1步結束後，改用448*448輸入（高解析度模型），學習率改為0.001，訓練10個epoch，其他參數不變。結果表明：fine-tuning後的top-1准確率為76.5%，top-5准確率為93.3%，若按照原來的訓練方式，Darknet-19的top-1准確率是72.9%，top-5准確率為91.2%。可以看出，兩步分別從網路結構和訓練方式方面入手提高了網路分類准確率。

    預訓練之後，開始基於檢測的數據集再進行fine-tuning。

    首先，先把最後一個卷積層去掉，然後添加3個3*3的卷積層，每個卷積層有1024個卷積核，並且後面都連接一個1*1的卷積層，卷積核個數（特徵維度）根據需要檢測的類數量決定。（比如對VOC數據，每個Cell需要預測5個Boungding Box，每個Bounding Box有4個坐標值、1個置信度值和20個條件類別概率值，所以每個單元格對應125個數據，此時卷積核個數應該取125。）

    然後，將最後一個3*3*512的卷積層和倒數第2個卷積層相連（提取細粒度特徵），最後在檢測數據集上fine-tuning預訓練模型160個epoch，學習率採用0.001，並且在第60和90個epoch的時候將學習率除以10，權值衰減、動量和數據增強方法與預訓練相同。

    YOLO9000通過結合分類和檢測數據集，使得訓練得到的模型可以檢測約9000類物體，利用帶標注的分類數據集量比較大的特點，解決了帶標注的檢測數據集量比較少的問題。具體方法是：一方面採用WordTree融合數據集，另一方面聯合訓練分類數據集和檢測數據集。

    分類數據集和檢測數據集存在較大差別：檢測數據集只有粗粒度的標記信息，如「貓」、「狗」，而分類數據集的標簽信息則更細粒度，更豐富。比如「狗」就包括「哈士奇」、「金毛狗」等等。所以如果想同時在檢測數據集與分類數據集上進行訓練，那麼就要用一種一致性的方法融合這些標簽信息。

    用於分類的方法，常用Softmax（比如v2），Softmax意味著分類的類別之間要互相獨立的，而ImageNet和COCO這兩種數據集之間的分類信息不相互獨立（ImageNet對應分類有9000種，而COCO僅提供80種目標檢測），所以使用一種多標簽模型來混合數據集，即假定一張圖片可以有多個標簽，並且不要求標簽之間獨立，而後進行Softmax分類。

    由於ImageNet的類別是從WordNet選取的，作者採用以下策略重建了一個樹形結構（稱為WordTree）：

遍歷ImageNet的標簽，然後在WordNet中尋找該標簽到根節點(所有的根節點為實體對象)的路徑；

如果路徑只有一條，將該路徑直接加入到WordTree結構中；

否則，從可選路徑中選擇一條最短路徑，加入到WordTree結構中。

WordTree的作用就在於將兩種數據集按照層級進行結合。

    如此，在WordTree的某個節點上就可以計算該節點的一些條件概率值，比如在terrier這個節點，可以得到如下條件概率值：

    進而，如果要預測此節點的概率（即圖片中目標是Norfolk terrier的概率），可以根據WordTree將該節點到根節點的條件概率依次相乘得到，如下式：

其中：

    YOLO9000在WordTree1k（用有1000類別的ImageNet1k創建）上訓練了Darknet-19模型。為了創建WordTree1k作者添加了很多中間節點（中間詞彙），把標簽由1000擴展到1369。

    訓練過程中GroundTruth標簽要順著向根節點的路徑傳播：為了計算條件概率，模型預測了一個包含1369個元素的向量，而且基於所有「同義詞集」計算Softmax，其中「同義詞集」是同一概念下的所屬詞。

    現在一張圖片是多標記的，標記之間不需要相互獨立。在訓練過程中，如果有一個圖片的標簽是「Norfolk terrier」，那麼這個圖片還會獲得「狗」以及「哺乳動物」等標簽。

    如上圖所示，之前的ImageNet分類是使用一個大Softmax進行分類，而現在WordTree只需要對同一概念下的同義詞進行Softmax分類。然後作者分別兩個數據集上用相同訓練方法訓練Darknet-19模型，最後在ImageNet數據集上的top-1准確率為72.9%，top-5准確率為91.2%；在WordTree數據集上的top-1准確率為71.9%，top-5准確率為90.4%。

    這種方法的好處是有「退而求其次」的餘地：在對未知或者新的物體進行分類時，性能損失更低，比如看到一個狗的照片，但不知道是哪種種類的狗，那麼就預測其為「狗」。

    以上是構造WordTree的原理，下圖是融合COCO數據集和ImageNet數據集以及生成它們的WordTree的示意圖（用顏色區分了COCO數據集和ImageNet數據集的標簽節點），混合後的數據集對應的WordTree有9418個類。另一方面，由於ImageNet數據集太大，YOLO9000為了平衡兩個數據集之間的數據量，通過過采樣（Oversampling）COCO數據集中的數據，使COCO數據集與ImageNet數據集之間的數據量比例達到1：4。

    對YOLO9000進行評估，發現其mAP比DPM高，而且YOLO有更多先進的特徵，YOLO9000是用部分監督的方式在不同訓練集上進行訓練，同時還能檢測9000個物體類別，並保證實時運行。雖然YOLO9000對動物的識別性能很好，但是對衣服或者裝備的識別性能不是很好（這跟數據集的數據組成有關）。

    YOLO9000的網路結構和YOLOv2類似，區別是每個單元格只採用3個Anchor Boxes。

    YOLO9000提出了一種在分類數據集和檢測數據集上聯合訓練的機制，即使用檢測數據集（COCO）的圖片去學習檢測相關的信息即查找對象（例如預測邊界框坐標、邊界框是否包含目標及目標屬於各個類別的概率），使用僅有類別標簽的分類數據集（ImageNet）中的圖片去擴展檢測到的對象的可識別種類。

    具體方法是：當網路遇到一個來自檢測數據集的圖片與標記信息，就把這些數據用完整的損失函數（v2和9000均沿用了v1網路的損失函數）反向傳播，而當網路遇到一個來自分類數據集的圖片和分類標記信息，只用代表分類誤差部分的損失函數反向傳播這個圖片。

    YOLO v2 在大尺寸圖片上能夠實現高精度，在小尺寸圖片上運行更快，可以說在速度和精度上達到了平衡，具體性能表現如下所示。

coco數據集

voc2012數據集

導航:首頁 > 源碼編譯 > 兩步目標檢測演算法

兩步目標檢測演算法

與兩步目標檢測演算法相關的資料