❶ Swin-Transformer又下一城 | 看SwinTrack目標跟蹤領域獨領風騷
Transformer在視覺跟蹤領域的潛力得到了廣泛的認可。然而,許多現有的基於Transformer的跟蹤器依賴於卷積神經網路(CNN)生成的特徵進行融合和增強。本文提出了一種全新的基於完全注意力的Transformer跟蹤演算法,名為SwinTrack。相較於傳統方法,SwinTrack不僅使用Transformer進行特徵提取,還允許目標對象和搜索區域之間的全交互,從而實現更高效的跟蹤。為了進一步優化性能,研究團隊綜合考慮了特徵融合、位置編碼和訓練損失策略。
SwinTrack在LaSOT數據集上創下了新紀錄,SUC得分高達0.717,比STARK高出4.6個百分點,同時保持了45FPS的運行速度。此外,在LaSOText、TrackingNet和GOT-10k等具有挑戰性的數據集上,SwinTrack分別達到了0.483的SUC、0.832C的SUC和0.694的AO,展現出在視覺跟蹤領域的領先性能。
文章首先回顧了Transformer在視覺任務中的發展,指出其在性能上的巨大潛力以及完全注意力模型在初期的挑戰。隨後,介紹了Swin-Transformer架構,特別是其基於窗口的分層結構如何解決尺度和計算復雜度問題。SwinTrack的亮點在於其完全基於Transformer的跟蹤框架,通過精心設計的組件和策略,顯著提高了跟蹤性能。
在詳細介紹了SwinTrack的組件後,文章展示了該方法在多個跟蹤挑戰中的卓越表現。通過對比實驗,驗證了基於concat的融合、Transformer解碼器、位置編碼以及特定的損失函數在提升性能方面的效果。最後,SwinTrack在多個數據集上的SOTA對比結果證實了其在視覺跟蹤領域的獨領風騷地位。
綜上所述,SwinTrack通過其創新的設計和優化策略,顯著提升了視覺跟蹤的性能,特別是在長時跟蹤、遮擋恢復等方面。這一成果不僅展示了Transformer在視覺領域的新應用潛力,也為後續研究提供了寶貴的啟示和方法論支持。
❷ 視覺追蹤的典型演算法
(1)基於區域的跟蹤演算法
基於區域的跟蹤演算法基本思想是:將目標初始所在區域的圖像塊作為目標模板,將目標模板與候選圖像中所有可能的位置進行相關匹配,匹配度最高的地方即為目標所在的位置。最常用的相關匹配准則是差的平方和准則,(Sum of Square Difference,SSD)。
起初,基於區域的跟蹤演算法中所用到的目標模板是固定的,如 Lucas 等人提出 Lucas-Kanade 方法,該方法利用灰度圖像的空間梯度信息尋找最佳匹配區域,確定目標位置。之後,更多的學者針對基於區域方法的缺點進行了不同的改進,如:Jepson 等人提出的基於紋理特徵的自適應目標外觀模型[18],該模型可以較好的解決目標遮擋的問題,且在跟蹤的過程中採用在線 EM 演算法對目標模型進行更新;Comaniciu 等人[19]提出了基於核函數的概率密度估計的視頻目標跟蹤演算法,該方法採用核直方圖表示目標,通過 Bhattacharya 系數計算目標模板與候選區域的相似度,通過均值漂移(MeanShift)演算法快速定位目標位置。
基於區域的目標跟蹤演算法採用了目標的全局信息,比如灰度信息、紋理特徵等,因此具有較高的可信度,即使目標發生較小的形變也不影響跟蹤效果,但是當目標發生較嚴重的遮擋時,很容易造成跟蹤失敗。
(2)基於特徵的跟蹤方法
基於特徵的目標跟蹤演算法通常是利用目標的一些顯著特徵表示目標,並通過特徵匹配在圖像序列中跟蹤目標。該類演算法不考慮目標的整體特徵,因此當目標被部分遮擋時,仍然可以利用另一部分可見特徵完成跟蹤任務,但是該演算法不能有效處理全遮擋、重疊等問題。
基於特徵的跟蹤方法一般包括特徵提取和特徵匹配兩個過程:
a) 特徵提取
所謂特徵提取是指從目標所在圖像區域中提取合適的描繪性特徵。這些特徵不僅應該較好地區分目標和背景,而且應對目標尺度伸縮、目標形狀變化、目標遮擋等情況具有魯棒性。常用的目標特徵包括顏色特徵、灰度特徵、紋理特徵、輪廓、光流特徵、角點特徵等。D.G. Lowe 提出 SIFT(Scale Invariant Feature Transform)演算法[20]是圖像特徵中效果較好的一種方法,該特徵對旋轉、尺度縮放、亮度變化具有不變性,對視角變化、仿射變換、雜訊也具有一定的穩定性。
b) 特徵匹配
特徵匹配就是採用一定的方式計算衡量候選區域與目標區域的相似性,並根據相似性確定目標位置、實現目標跟蹤。在計算機視覺領域中,常用的相似性度量准則包括加權距離、Bhattacharyya 系數、歐式距離、Hausdorff 距離等。其中,Bhattacharyya 系數和歐式距離最為常用。
Tissainayagam 等人提出了一種基於點特徵的目標跟蹤演算法[21]。該演算法首先在多個尺度空間中尋找局部曲率最大的角點作為關鍵點,然後利用提出的MHT-IMM 演算法跟蹤這些關鍵點。這種跟蹤演算法適用於具有簡單幾何形狀的目標,對於難以提取穩定角點的復雜目標,則跟蹤效果較差。
Zhu 等人提出的基於邊緣特徵的目標跟蹤演算法[22],首先將參考圖像劃分為多個子區域,並將每個子區域的邊緣點均值作為目標的特徵點,然後利用類似光流的方法進行特徵點匹配,從而實現目標跟蹤。
(3)基於輪廓的跟蹤方法
基於輪廓的目標跟蹤方法需要在視頻第一幀中指定目標輪廓的位置,之後由微分方程遞歸求解,直到輪廓收斂到能量函數的局部極小值,其中,能量函數通常與圖像特徵和輪廓光滑度有關。與基於區域的跟蹤方法相比,基於輪廓的跟蹤方法的計算復雜度小,對目標的部分遮擋魯棒。但這種方法在跟蹤開始時需要初始化目標輪廓,因此對初始位置比較敏感,跟蹤精度也被限制在輪廓級。
Kass 等人[23]於 1987 年提出的活動輪廓模型(Active Contour Models,Snake),通過包括圖像力、內部力和外部約束力在內的三種力的共同作用控制輪廓的運動。內部力主要對輪廓進行局部的光滑性約束,圖像力則將曲線推向圖像的邊緣,而外部力可以由用戶指定,主要使輪廓向期望的局部極小值運動,。
Paragios 等人[24]提出了一種用水平集方法表示目標輪廓的目標檢測與跟蹤演算法,該方法首先通過幀差法得到目標邊緣,然後通過概率邊緣檢測運算元得到目標的運動邊緣,通過將目標輪廓向目標運動邊緣演化實現目標跟蹤。
(4)基於模型的跟蹤方法[25]
在實際應用中,我們需要跟蹤的往往是一些特定的我們事先具有認識的目標,因此,基於模型的跟蹤方法首先根據自己的先驗知識離線的建立該目標的 3D 或2D 幾何模型,然後,通過匹配待選區域模型與目標模型實現目標跟蹤,進而在跟蹤過程中,根據場景中圖像的特徵,確定運動目標的各個尺寸參數、姿態參數以及運動參數。
Shu Wang 等人提出一種基於超像素的跟蹤方法[26],該方法在超像素基礎上建立目標的外觀模板,之後通過計算目標和背景的置信圖確定目標的位置,在這個過程中,該方法不斷通過分割和顏色聚類防止目標的模板漂移。
(5)基於檢測的跟蹤演算法
基於檢測的跟蹤演算法越來越流行。一般情況下,基於檢測的跟蹤演算法都採用一點學習方式產生特定目標的檢測器,即只用第一幀中人工標記的樣本信息訓練檢測器。這類演算法將跟蹤問題簡化為簡單的將背景和目標分離的分類問題,因此這類演算法的速度快且效果理想。這類演算法為了適應目標外表的變化,一般都會採用在線學習方式進行自更新,即根據自身的跟蹤結果對檢測器進行更新。