視覺領域的核心演算法_計算機視覺中目前有哪些經典的目標跟蹤演算法

Ⅰ 計算機視覺領域主流的演算法和方向有哪些

人工智慧是當下很火熱的話題，其與大數據的完美結合應用於多個場景，極大的方便了人類的生活。而人工智慧又包含深度學習和機器學習兩方面的內容。深度學習又以計算機視覺和自然語言處理兩個方向發展的最好，最火熱。大家對於自然語言處理的接觸可能不是很多，但是說起計算機視覺，一定能夠馬上明白，因為我們每天接觸的刷臉支付等手段就會和計算機視覺掛鉤。可以說計算機視覺的應用最為廣泛。

目標跟蹤，就是在某種場景下跟蹤特定對象的過程，在無人駕駛領域中有很重要的應用。目前較為流行的目標跟蹤演算法是基於堆疊自動編碼器的DLT。語義分割，則是將圖像分為像素組，再進行標記和分類。目前的主流演算法都使用完全卷積網路的框架。實例分割，是指將不同類型的實例分類，比如用4種不同顏色來標記4隻貓。目前用於實例分割的主流演算法是Mask R-CNN。

Ⅱ 什麼叫做計算機視覺領域的演算法測評基線

你指的是baseline嗎？

不同task的baseline不一樣。一般來說指的是一個很基礎的演算法。然後你自己提出的方法需要和baseline進行對比，效果需要比baseline好。

Ⅲ 機器視覺新手應該如何學習

機器視覺新手的學習方法：
1、機器視覺涵蓋的方向非常廣泛，學習機器視覺之前應該明白自己以後想從事的方向，然後針對不同崗位對崗位職責的要求進行學習補充。
2、了解機器視覺的基本概念，因為從大范圍大環境下去了解會非常利於對其他零散知識的整合，也更容易接納。
3、確定好自己在機器視覺領域的從業方向後，可以分為硬體或軟體方向等確認學習目標。
4、知道自己學習的方向後需要了解如何使用操作。
機器視覺是人工智慧正在快速發展的一個分支。簡單說來，機器視覺
器視覺系統就是利用機器代替人眼來作各種測量和判斷。它是計算機學科的一個重要分支，它綜合了光學、機械、電子、計算機軟硬體等方面的技術，涉及到計算機、圖像處理、模式識別、人工智慧、信號處理、光機電一體化等多個領域。圖像處理和模式識別等技術的快速發展，也大大地推動了機器視覺的發展一個完整的機器視覺系統的主要工作過程如下：1、工件定位檢測器探測到物體已經運動至接近攝像系統的視野中心，向圖像採集部分發送觸發脈沖。2、圖像採集部分按照事先設定的程序和延時，分別向攝像機和照明系統發出啟動脈沖。3、攝像機停止目前的掃描，重新開始新的一幀掃描，或者攝像機在啟動脈沖來到之前處於等待狀態，啟動脈沖到來後啟動一幀掃描。4、攝像機開始新的一幀掃描之前打開曝光機構，曝光時間可以事先設定。5、另一個啟動脈沖打開燈光照明，燈光的開啟時間應該與攝像機的曝光時間匹配。6、攝像機曝光後，正式開始一幀圖像的掃描和輸出。7、圖像採集部分接收模擬視頻信號通過A/D將其數字化，或者是直接接收攝像機數字化後的數字視頻數據。8、圖像採集部分將數字圖像存放在處理器或計算機的內存中。9、處理器對圖像進行處理、分析、識別，獲得測量結果或邏輯控制值。10、處理結果控制流水線的動作、進行定位、糾正運動的誤差等。從上述的工作流程可以看出，機器視覺是一種比較復雜的系統。因為大多數系統監控對象都是運動物體，系統與運動物體的匹配和協調動作尤為重要，所以給系統各部分的動作時間和處理速度帶來了嚴格的要求。在某些應用領域，例如機器人、飛行物體導制等，對整個系統或者系統的一部分的重量、體積和功耗都會有嚴格的要求。（良）清楚了以上機器視覺的原理和過程之後，我建議： 1）人類和動物視覺系統的原理 2）攝像機技術與原理 3）圖像識別和處理技術 4）計算機技術5）人工智慧

Ⅳ 市面上機器視覺技術做的比較出色的有哪些

華漢偉業還可以，他家的自研演算法優化採用了指令集、並行演算法等技術手段，並且與國際一流演算法開發包Halcon進行對比測試，演算法精度誤差小於10-4，速度與其相當，在國內傳統機器視覺領域，處於第一梯隊。目前國內視覺廠商多數處於應用層開發，使用國外演算法庫進行開發，缺少自己底層演算法開發和優化能力，華漢偉業演算法開發包可以實現國產替代，提升國內在視覺領域的基礎開發能力，目前已經在多個產線實現了落地批量應用，其功能、性能及穩定性得到驗證，並獲得客戶的高度認同。
華漢偉業自成立起便以「機器視覺演算法」為核心，專注於機器視覺、運動控制、AI檢測技術，聚焦機器「工業視覺部件及行業解決方案」的研發，致力於將「機器視覺、人工智慧、機器人技術」與工業自動化應用相結合，專業賦能工廠自動化、產業智能化升級和智慧工廠改造，助力企業邁向工業4.0與中國製造2025時代。網路也有很多相關資料。

Ⅳ 深度學習之卷積神經網路經典模型

LeNet-5模型在CNN的應用中，文字識別系統所用的LeNet-5模型是非常經典的模型。LeNet-5模型是1998年，Yann LeCun教授提出的，它是第一個成功大規模應用在手寫數字識別問題的卷積神經網路，在MNIST數據集中的正確率可以高達99.2%。

下面詳細介紹一下LeNet-5模型工作的原理。
LeNet-5模型一共有7層，每層包含眾多參數，也就是卷積神經網路中的參數。雖然層數只有7層，這在如今龐大的神經網路中可是說是非常少的了，但是包含了卷積層，池化層，全連接層，可謂麻雀雖小五臟俱全了。為了方便，我們把卷積層稱為C層，下采樣層叫做下采樣層。
首先，輸入層輸入原始圖像，原始圖像被處理成32×32個像素點的值。然後，後面的隱層計在卷積和子抽樣之間交替進行。C1層是卷積層，包含了六個特徵圖。每個映射也就是28x28個神經元。卷積核可以是5x5的十字形，這28×28個神經元共享卷積核權值參數，通過卷積運算，原始信號特徵增強，同時也降低了雜訊，當卷積核不同時，提取到圖像中的特徵不同；C2層是一個池化層，池化層的功能在上文已經介紹過了，它將局部像素值平均化來實現子抽樣。
池化層包含了六個特徵映射，每個映射的像素值為14x14，這樣的池化層非常重要，可以在一定程度上保證網路的特徵被提取，同時運算量也大大降低，減少了網路結構過擬合的風險。因為卷積層與池化層是交替出現的，所以隱藏層的第三層又是一個卷積層，第二個卷積層由16個特徵映射構成，每個特徵映射用於加權和計算的卷積核為10x10的。第四個隱藏層，也就是第二個池化層同樣包含16個特徵映射，每個特徵映射中所用的卷積核是5x5的。第五個隱藏層是用5x5的卷積核進行運算，包含了120個神經元，也是這個網路中卷積運算的最後一層。
之後的第六層便是全連接層，包含了84個特徵圖。全連接層中對輸入進行點積之後加入偏置，然後經過一個激活函數傳輸給輸出層的神經元。最後一層，也就是第七層，為了得到輸出向量，設置了十個神經元來進行分類，相當於輸出一個包含十個元素的一維數組，向量中的十個元素即0到9。
AlexNet模型
AlexNet簡介
2012年Imagenet圖像識別大賽中，Alext提出的alexnet網路模型一鳴驚人，引爆了神經網路的應用熱潮，並且贏得了2012屆圖像識別大賽的冠軍，這也使得卷積神經網路真正意義上成為圖像處理上的核心演算法。上文介紹的LeNet-5出現在上個世紀，雖然是經典，但是迫於種種復雜的現實場景限制，只能在一些領域應用。不過，隨著SVM等手工設計的特徵的飛速發展，LeNet-5並沒有形成很大的應用狀況。隨著ReLU與dropout的提出，以及GPU帶來算力突破和互聯網時代大數據的爆發，卷積神經網路帶來歷史的突破，AlexNet的提出讓深度學習走上人工智慧的最前端。
圖像預處理
AlexNet的訓練數據採用ImageNet的子集中的ILSVRC2010數據集，包含了1000類，共1.2百萬的訓練圖像，50000張驗證集，150000張測試集。在進行網路訓練之前我們要對數據集圖片進行預處理。首先我們要將不同解析度的圖片全部變成256x256規格的圖像，變換方法是將圖片的短邊縮放到 256像素值，然後截取長邊的中間位置的256個像素值，得到256x256大小的圖像。除了對圖片大小進行預處理，還需要對圖片減均值，一般圖像均是由RGB三原色構成，均值按RGB三分量分別求得，由此可以更加突出圖片的特徵，更方便後面的計算。
此外，對了保證訓練的效果，我們仍需對訓練數據進行更為嚴苛的處理。在256x256大小的圖像中，截取227x227大小的圖像，在此之後對圖片取鏡像，這樣就使得原始數據增加了（256-224）x（256-224）x2= 2048倍。最後對RGB空間做PCA，然後對主成分做（0,0.1）的高斯擾動，結果使錯誤率下降1%。對測試數據而言，抽取以圖像4個角落的大小為224224的圖像，中心的224224大小的圖像以及它們的鏡像翻轉圖像，這樣便可以獲得10張圖像，我們便可以利用softmax進行預測，對所有預測取平均作為最終的分類結果。
ReLU激活函數
之前我們提到常用的非線性的激活函數是sigmoid，它能夠把輸入的連續實值全部確定在0和1之間。但是這帶來一個問題，當一個負數的絕對值很大時，那麼輸出就是0；如果是絕對值非常大的正數，輸出就是1。這就會出現飽和的現象，飽和現象中神經元的梯度會變得特別小，這樣必然會使得網路的學習更加困難。此外，sigmoid的output的值並不是0為均值，因為這會導致上一層輸出的非0均值信號會直接輸入到後一層的神經元上。所以AlexNet模型提出了ReLU函數，公式：f(x)=max(0,x)f(x)=max(0,x)。

用ReLU代替了Sigmoid，發現使用 ReLU 得到的SGD的收斂速度會比 sigmoid快很多，這成了AlexNet模型的優勢之一。
Dropout
AlexNet模型提出了一個有效的模型組合方式，相比於單模型，只需要多花費一倍的時間，這種方式就做Dropout。在整個神經網路中，隨機選取一半的神經元將它們的輸出變成0。這種方式使得網路關閉了部分神經元，減少了過擬合現象。同時訓練的迭代次數也得以增加。當時一個GTX580 GPU只有3GB內存，這使得大規模的運算成為不可能。但是，隨著硬體水平的發展，當時的GPU已經可以實現並行計算了，並行計算之後兩塊GPU可以互相通信傳輸數據，這樣的方式充分利用了GPU資源，所以模型設計利用兩個GPU並行運算，大大提高了運算效率。
模型分析

AlexNet模型共有8層結構，其中前5層為卷積層，其中前兩個卷積層和第五個卷積層有池化層，其他卷積層沒有。後面3層為全連接層，神經元約有六十五萬個，所需要訓練的參數約六千萬個。
圖片預處理過後，進過第一個卷積層C1之後，原始的圖像也就變成了55x55的像素大小，此時一共有96個通道。模型分為上下兩塊是為了方便GPU運算，48作為通道數目更加適合GPU的並行運算。上圖的模型里把48層直接變成了一個面，這使得模型看上去更像一個立方體，大小為55x55x48。在後面的第二個卷積層C2中，卷積核的尺寸為5x5x48，由此再次進行卷積運算。在C1，C2卷積層的卷積運算之後，都會有一個池化層，使得提取特徵之後的特徵圖像素值大大減小，方便了運算，也使得特徵更加明顯。而第三層的卷積層C3又是更加特殊了。第三層卷積層做了通道的合並，將之前兩個通道的數據再次合並起來，這是一種串接操作。第三層後，由於串接，通道數變成256。全卷積的卷積核尺寸也就變成了13×13×25613×13×256。一個有4096個這樣尺寸的卷積核分別對輸入圖像做4096次的全卷積操作，最後的結果就是一個列向量，一共有4096個數。這也就是最後的輸出，但是AlexNet最終是要分1000個類，所以通過第八層，也就是全連接的第三層，由此得到1000個類輸出。
Alexnet網路中各個層發揮了不同的作用，ReLU，多個CPU是為了提高訓練速度，重疊pool池化是為了提高精度，且不容易產生過擬合，局部歸一化響應是為了提高精度，而數據增益與dropout是為了減少過擬合。
VGG net
在ILSVRC-2014中，牛津大學的視覺幾何組提出的VGGNet模型在定位任務第一名和分類任務第一名[[i]]。如今在計算機視覺領域，卷積神經網路的良好效果深得廣大開發者的喜歡，並且上文提到的AlexNet模型擁有更好的效果，所以廣大從業者學習者試圖將其改進以獲得更好地效果。而後來很多人經過驗證認為，AlexNet模型中所謂的局部歸一化響應浪費了計算資源，但是對性能卻沒有很大的提升。VGG的實質是AlexNet結構的增強版，它側重強調卷積神經網路設計中的深度。將卷積層的深度提升到了19層，並且在當年的ImageNet大賽中的定位問題中獲得了第一名的好成績。整個網路向人們證明了我們是可以用很小的卷積核取得很好地效果，前提是我們要把網路的層數加深，這也論證了我們要想提高整個神經網路的模型效果，一個較為有效的方法便是將它的深度加深，雖然計算量會大大提高，但是整個復雜度也上升了，更能解決復雜的問題。雖然VGG網路已經誕生好幾年了，但是很多其他網路上效果並不是很好地情況下，VGG有時候還能夠發揮它的優勢，讓人有意想不到的收獲。

與AlexNet網路非常類似，VGG共有五個卷積層，並且每個卷積層之後都有一個池化層。當時在ImageNet大賽中，作者分別嘗試了六種網路結構。這六種結構大致相同，只是層數不同，少則11層，多達19層。網路結構的輸入是大小為224*224的RGB圖像，最終將分類結果輸出。當然，在輸入網路時，圖片要進行預處理。
VGG網路相比AlexNet網路，在網路的深度以及寬度上做了一定的拓展，具體的卷積運算還是與AlexNet網路類似。我們主要說明一下VGG網路所做的改進。第一點，由於很多研究者發現歸一化層的效果並不是很好，而且佔用了大量的計算資源，所以在VGG網路中作者取消了歸一化層；第二點，VGG網路用了更小的3x3的卷積核，而兩個連續的3x3的卷積核相當於5x5的感受野，由此類推，三個3x3的連續的卷積核也就相當於7x7的感受野。這樣的變化使得參數量更小，節省了計算資源，將資源留給後面的更深層次的網路。第三點是VGG網路中的池化層特徵池化核改為了2x2，而在AlexNet網路中池化核為3x3。這三點改進無疑是使得整個參數運算量下降，這樣我們在有限的計算平台上能夠獲得更多的資源留給更深層的網路。由於層數較多，卷積核比較小，這樣使得整個網路的特徵提取效果很好。其實由於VGG的層數較多，所以計算量還是相當大的，卷積層比較多成了它最顯著的特點。另外，VGG網路的拓展性能比較突出，結構比較簡潔，所以它的遷移性能比較好，遷移到其他數據集的時候泛化性能好。到現在為止，VGG網路還經常被用來提出特徵。所以當現在很多較新的模型效果不好時，使用VGG可能會解決這些問題。
GoogleNet
谷歌於2014年Imagenet挑戰賽（ILSVRC14）憑借GoogleNet再次斬獲第一名。這個通過增加了神經網路的深度和寬度獲得了更好地效果，在此過程中保證了計算資源的不變。這個網路論證了加大深度，寬度以及訓練數據的增加是現有深度學習獲得更好效果的主要方式。但是增加尺寸可能會帶來過擬合的問題，因為深度與寬度的加深必然會帶來過量的參數。此外，增加網路尺寸也帶來了對計算資源侵佔過多的缺點。為了保證計算資源充分利用的前提下去提高整個模型的性能，作者使用了Inception模型，這個模型在下圖中有展示，可以看出這個有點像金字塔的模型在寬度上使用並聯的不同大小的卷積核，增加了卷積核的輸出寬度。因為使用了較大尺度的卷積核增加了參數。使用了1*1的卷積核就是為了使得參數的數量最少。

Inception模塊
上圖表格為網路分析圖，第一行為卷積層，輸入為224×224×3 ，卷積核為7x7，步長為2，padding為3，輸出的維度為112×112×64，這裡面的7x7卷積使用了 7×1 然後 1×7 的方式，這樣便有(7+7)×64×3=2,688個參數。第二行為池化層，卷積核為3×33×3，滑動步長為2，padding為 1 ，輸出維度：56×56×64，計算方式：1/2×(112+2×1?3+1)=56。第三行，第四行與第一行，第二行類似。第 5 行 Inception mole中分為4條支線，輸入均為上層產生的 28×28×192 結果：第 1 部分，1×1 卷積層，輸出大小為28×28×64；第 2 部分，先1×1卷積層，輸出大小為28×28×96，作為輸入進行3×3卷積層，輸出大小為28×28×128；第 3部分，先1×1卷積層，輸出大小為28×28×32，作為輸入進行3×3卷積層，輸出大小為28×28×32；而第3 部分3×3的池化層，輸出大小為輸出大小為28×28×32。第5行的Inception mole會對上面是個結果的輸出結果並聯，由此增加網路寬度。
ResNet
2015年ImageNet大賽中，MSRA何凱明團隊的ResialNetworks力壓群雄，在ImageNet的諸多領域的比賽中上均獲得了第一名的好成績，而且這篇關於ResNet的論文Deep Resial Learning for Image Recognition也獲得了CVPR2016的最佳論文，實至而名歸。
上文介紹了的VGG以及GoogleNet都是增加了卷積神經網路的深度來獲得更好效果，也讓人們明白了網路的深度與廣度決定了訓練的效果。但是，與此同時，寬度與深度加深的同時，效果實際會慢慢變差。也就是說模型的層次加深，錯誤率提高了。模型的深度加深，以一定的錯誤率來換取學習能力的增強。但是深層的神經網路模型犧牲了大量的計算資源，學習能力提高的同時不應當產生比淺層神經網路更高的錯誤率。這個現象的產生主要是因為隨著神經網路的層數增加，梯度消失的現象就越來越明顯。所以為了解決這個問題，作者提出了一個深度殘差網路的結構Resial：

上圖就是殘差網路的基本結構，可以看出其實是增加了一個恆等映射，將原本的變換函數H(x)轉換成了F(x)+x。示意圖中可以很明顯看出來整個網路的變化，這樣網路不再是簡單的堆疊結構，這樣的話便很好地解決了由於網路層數增加而帶來的梯度原來越不明顯的問題。所以這時候網路可以做得很深，到目前為止，網路的層數都可以上千層，而能夠保證很好地效果。並且，這樣的簡單疊加並沒有給網路增加額外的參數跟計算量，同時也提高了網路訓練的效果與效率。
在比賽中，為了證明自己觀點是正確的，作者控制變數地設計幾個實驗。首先作者構建了兩個plain網路，這兩個網路分別為18層跟34層，隨後作者又設計了兩個殘差網路，層數也是分別為18層和34層。然後對這四個模型進行控制變數的實驗觀察數據量的變化。下圖便是實驗結果。實驗中，在plain網路上觀測到明顯的退化現象。實驗結果也表明，在殘差網路上，34層的效果明顯要好於18層的效果，足以證明殘差網路隨著層數增加性能也是增加的。不僅如此，殘差網路的在更深層的結構上收斂性能也有明顯的提升，整個實驗大為成功。

除此之外，作者還做了關於shortcut方式的實驗，如果殘差網路模塊的輸入輸出維度不一致，我們如果要使維度統一，必須要對維數較少的進行増維。而增維的最好效果是用0來填充。不過實驗數據顯示三者差距很小，所以線性投影並不是特別需要。使用0來填充維度同時也保證了模型的復雜度控制在比較低的情況下。
隨著實驗的深入，作者又提出了更深的殘差模塊。這種模型減少了各個層的參數量，將資源留給更深層數的模型，在保證復雜度很低的情況下，模型也沒有出現梯度消失很明顯的情況，因此目前模型最高可達1202層，錯誤率仍然控製得很低。但是層數如此之多也帶來了過擬合的現象，不過諸多研究者仍在改進之中，畢竟此時的ResNet已經相對於其他模型在性能上遙遙領先了。
殘差網路的精髓便是shortcut。從一個角度來看，也可以解讀為多種路徑組合的一個網路。如下圖：

ResNet可以做到很深，但是從上圖中可以體會到，當網路很深，也就是層數很多時，數據傳輸的路徑其實相對比較固定。我們似乎也可以將其理解為一個多人投票系統，大多數梯度都分布在論文中所謂的effective path上。
DenseNet
在Resnet模型之後，有人試圖對ResNet模型進行改進，由此便誕生了ResNeXt模型。

這是對上面介紹的ResNet模型結合了GoogleNet中的inception模塊思想，相比於Resnet來說更加有效。隨後，誕生了DenseNet模型，它直接將所有的模塊連接起來，整個模型更加簡單粗暴。稠密相連成了它的主要特點。

我們將DenseNet與ResNet相比較:

從上圖中可以看出，相比於ResNet，DenseNet參數量明顯減少很多，效果也更加優越，只是DenseNet需要消耗更多的內存。
總結
上面介紹了卷積神經網路發展史上比較著名的一些模型，這些模型非常經典，也各有優勢。在算力不斷增強的現在，各種新的網路訓練的效率以及效果也在逐漸提高。從收斂速度上看，VGG>Inception>DenseNet>ResNet,從泛化能力來看，Inception>DenseNet=ResNet>VGG，從運算量看來，Inception<DenseNet< ResNet<VGG，從內存開銷來看，Inception<ResNet< DenseNet<VGG。在本次研究中，我們對各個模型均進行了分析，但從效果來看，ResNet效果是最好的，優於Inception，優於VGG，所以我們第四章實驗中主要採用谷歌的Inception模型，也就是GoogleNet。

Ⅵ 計算機視覺中，目前有哪些經典的目標跟蹤演算法

第一章介紹運動的分類、計算機視覺領域中運動分析模型、計算機視覺領域運動檢測和目標跟蹤技術研究現狀、計算機視覺領域中運動分析技術的難點等內容；
第二章介紹傳統的運動檢測和目標跟蹤演算法，包括背景差分法、幀間差分法、光流場評估演算法等；
第三章介紹具有周期性運動特徵的低速目標運動檢測和跟蹤演算法，並以CCD測量系統為例介紹該演算法的應用；
第四章介紹高速運動目標識別和跟蹤演算法，並以激光通信十信標光捕獲和跟蹤系統為例介紹該演算法的應用；
第五章介紹具有復雜背景的目標運動檢測過程中採用的光流場演算法，包括正規化相關的特性及其改進光流場評估演算法，並介紹改進光流場演算法的具體應用；
第六章介紹互補投票法實現可信賴運動向量估計。

Ⅶ 請問，機器人視覺抓取關鍵技術有哪些，各有哪些實現方法，有何優缺點

首先，我們要了解，機器人領域的視覺（Machine Vision）跟計算機領域（Computer Vision）的視覺有一些不同：機器視覺的目的是給機器人提供操作物體的信息。所以，機器視覺的研究大概有這幾塊：

物體識別（Object Recognition）：在圖像中檢測到物體類型等，這跟 CV 的研究有很大一部分交叉；

位姿估計（Pose Estimation）：計算出物體在攝像機坐標系下的位置和姿態，對於機器人而言，需要抓取東西，不僅要知道這是什麼，也需要知道它具體在哪裡；

相機標定（Camera Calibration）：因為上面做的只是計算了物體在相機坐標系下的坐標，我們還需要確定相機跟機器人的相對位置和姿態，這樣才可以將物體位姿轉換到機器人位姿。

當然，我這里主要是在物體抓取領域的機器視覺；SLAM 等其他領域的就先不講了。

由於視覺是機器人感知的一塊很重要內容，所以研究也非常多了，我就我了解的一些，按照由簡入繁的順序介紹吧：

0. 相機標定

這其實屬於比較成熟的領域。由於我們所有物體識別都只是計算物體在相機坐標系下的位姿，但是，機器人操作物體需要知道物體在機器人坐標系下的位姿。所以，我們先需要對相機的位姿進行標定。內參標定就不說了，參照張正友的論文，或者各種標定工具箱；外參標定的話，根據相機安裝位置，有兩種方式：

Eye to Hand：相機與機器人極坐標系固連，不隨機械臂運動而運動

Eye in Hand：相機固連在機械臂上，隨機械臂運動而運動兩種方式的求解思路都類似，首先是眼在手外（Eye to Hand）

只需在機械臂末端固定一個棋盤格，在相機視野內運動幾個姿態。由於相機可以計算出棋盤格相對於相機坐標系的位姿、機器人運動學正解可以計算出機器人底座到末端抓手之間的位姿變化、而末端爪手與棋盤格的位姿相對固定不變。這樣，我們就可以得到一個坐標系環

而對於眼在手上（Eye in Hand）的情況，也類似，在地上隨便放一個棋盤格（與機器人基座固連），然後讓機械臂帶著相機走幾個位姿，然後也可以形成一個的坐標環

平面物體檢測

這是目前工業流水線上最常見的場景。目前來看，這一領域對視覺的要求是：快速、精確、穩定。所以，一般是採用最簡單的邊緣提取+邊緣匹配/形狀匹配的方法；而且，為了提高穩定性、一般會通過主要打光源、採用反差大的背景等手段，減少系統變數。

目前，很多智能相機（如 cognex）都直接內嵌了這些功能；而且，物體一般都是放置在一個平面上，相機只需計算物體的三自由度位姿即可。另外，這種應用場景一般都是用於處理一種特定工件，相當於只有位姿估計，而沒有物體識別。當然，工業上追求穩定性無可厚非，但是隨著生產自動化的要求越來越高，以及服務類機器人的興起。對更復雜物體的完整位姿估計也就成了機器視覺的研究熱點。

2. 有紋理的物體

機器人視覺領域是最早開始研究有紋理的物體的，如飲料瓶、零食盒等表面帶有豐富紋理的都屬於這一類。當然，這些物體也還是可以用類似邊緣提取+模板匹配的方法。但是，實際機器人操作過程中，環境會更加復雜：光照條件不確定（光照）、物體距離相機距離不確定（尺度）、相機看物體的角度不確定（旋轉、仿射）、甚至是被其他物體遮擋（遮擋）。

幸好有一位叫做 Lowe 的大神，提出了一個叫做 SIFT （Scale-invariant feature transform）的超強局部特徵點：Lowe, David G. "Distinctive image features from scale-invariant keypoints."International journal of computer vision 60.2 (2004): 91-110.具體原理可以看上面這篇被引用 4萬+ 的論文或各種博客，簡單地說，這個方法提取的特徵點只跟物體表面的某部分紋理有關，與光照變化、尺度變化、仿射變換、整個物體無關。因此，利用 SIFT 特徵點，可以直接在相機圖像中尋找到與資料庫中相同的特徵點，這樣，就可以確定相機中的物體是什麼東西（物體識別）。

對於不會變形的物體，特徵點在物體坐標系下的位置是固定的。所以，我們在獲取若干點對之後，就可以直接求解出相機中物體與資料庫中物體之間的單應性矩陣。如果我們用深度相機（如Kinect）或者雙目視覺方法，確定出每個特徵點的 3D 位置。那麼，直接求解這個 PnP 問題，就可以計算出物體在當前相機坐標系下的位姿。

↑ 這里就放一個實驗室之前畢業師兄的成果當然，實際操作過程中還是有很多細節工作才可以讓它真正可用的，如：先利用點雲分割和歐氏距離去除背景的影響、選用特徵比較穩定的物體（有時候 SIFT 也會變化）、利用貝葉斯方法加速匹配等。而且，除了 SIFT 之外，後來又出了一大堆類似的特徵點，如 SURF、ORB 等。

3. 無紋理的物體

好了，有問題的物體容易解決，那麼生活中或者工業里還有很多物體是沒有紋理的：

我們最容易想到的就是：是否有一種特徵點，可以描述物體形狀，同時具有跟 SIFT 相似的不變性？不幸的是，據我了解，目前沒有這種特徵點。所以，之前一大類方法還是採用基於模板匹配的辦法，但是，對匹配的特徵進行了專門選擇（不只是邊緣等簡單特徵）。

這里，我介紹一個我們實驗室之前使用和重現過的演算法 LineMod：Hinterstoisser, Stefan, et al. "Multimodal templates for real-time detection of texture-less objects in heavily cluttered scenes." Computer Vision (ICCV), 2011 IEEE International Conference on. IEEE, 2011.

簡單而言，這篇論文同時利用了彩色圖像的圖像梯度和深度圖像的表面法向作為特徵，與資料庫中的模板進行匹配。由於資料庫中的模板是從一個物體的多個視角拍攝後生成的，所以這樣匹配得到的物體位姿只能算是初步估計，並不精確。但是，只要有了這個初步估計的物體位姿，我們就可以直接採用 ICP 演算法（Iterative closest point）匹配物體模型與 3D 點雲，從而得到物體在相機坐標系下的精確位姿。

當然，這個演算法在具體實施過程中還是有很多細節的：如何建立模板、顏色梯度的表示等。另外，這種方法無法應對物體被遮擋的情況。（當然，通過降低匹配閾值，可以應對部分遮擋，但是會造成誤識別）。針對部分遮擋的情況，我們實驗室的張博士去年對 LineMod 進行了改進，但由於論文尚未發表，所以就先不過多涉及了。

4. 深度學習

由於深度學習在計算機視覺領域得到了非常好的效果，我們做機器人的自然也會嘗試把 DL 用到機器人的物體識別中。

首先，對於物體識別，這個就可以照搬 DL 的研究成果了，各種 CNN 拿過來用就好了。有沒有將深度學習融入機器人領域的嘗試？有哪些難點？ - 知乎這個回答中，我提到 2016 年的『亞馬遜抓取大賽』中，很多隊伍都採用了 DL 作為物體識別演算法。然而，在這個比賽中，雖然很多人採用 DL 進行物體識別，但在物體位姿估計方面都還是使用比較簡單、或者傳統的演算法。似乎並未廣泛採用 DL。如@周博磊所說，一般是採用 semantic segmentation network 在彩色圖像上進行物體分割，之後，將分割出的部分點雲與物體 3D 模型進行 ICP 匹配。

當然，直接用神經網路做位姿估計的工作也是有的，如這篇：Doumanoglou, Andreas, et al. "Recovering 6d object pose and predicting next-best-view in the crowd." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.

它的方法大概是這樣：對於一個物體，取很多小塊 RGB-D 數據（只關心一個patch，用局部特徵可以應對遮擋）；每小塊有一個坐標（相對於物體坐標系）；然後，首先用一個自編碼器對數據進行降維；之後，用將降維後的特徵用於訓練Hough Forest。

5. 與任務/運動規劃結合

這部分也是比較有意思的研究內容，由於機器視覺的目的是給機器人操作物體提供信息，所以，並不限於相機中的物體識別與定位，往往需要跟機器人的其他模塊相結合。

我們讓機器人從冰箱中拿一瓶『雪碧』，但是這個『雪碧』被『美年達』擋住了。我們人類的做法是這樣的：先把『美年達』移開，再去取『雪碧』。所以，對於機器人來說，它需要先通過視覺確定雪碧在『美年達』後面，同時，還需要確定『美年達』這個東西是可以移開的，而不是冰箱門之類固定不可拿開的物體。當然，將視覺跟機器人結合後，會引出其他很多好玩的新東西。由於不是我自己的研究方向，所以也就不再班門弄斧了。

機器人家上有關於這個很詳細的圖文講解，你可以看下，希望對你有用

Ⅷ 核心演算法與視覺實踐怎麼樣

計算機視覺部分：
1、考察特徵點匹配演算法，輸入兩幅圖像中的特徵點對，輸出匹配的特徵點對，（128維描述子）距離計算函數已給出無需考慮復雜度。編寫偽代碼，分析演算法復雜度；
2、考察圖像旋轉。左邊圖像時旋轉一定角度後的圖像(有黑邊)，右邊為正常圖像。已知兩幅圖像都為WxH，以及左圖像與四邊的切點A1A2A3A4，設計旋轉演算法使左圖像變換矯正成右圖像，編寫偽代碼，分析演算法復雜度及優缺點；
3、主要考察雙目視覺中的標定知識。給出了雙目視覺的成像原理圖及相關定理和表達。第一小題，需要證明x'Fx=0 x'x為左右圖像中的匹配點對，並要求給出F矩陣的秩；第二小題要求推導出最少可由多少對左右圖像中匹配點可以推導出F矩陣；
4、要求寫出圖像處理和計算機視覺在無人飛行器中的3個重要應用。給出理由和解決方案並分析。
圖像處理部分：
1、主要考察一維中值濾波，退化為區間濾波編寫偽代碼，分析演算法復雜度；
2、主要考察二維中值濾波，編寫偽代碼，分析演算法復雜度；
3、如何去除脈沖雜訊，圖像中有大量隨機產生的255和0雜訊；
4、考察加權中值濾波公式推導以及一維加權中值濾波

Ⅸ 當下格靈深瞳是否已經掌握了計算機視覺領域的核心演算法技術

前不久格靈深瞳在投資者互動平台表示，當下格靈深瞳已經掌握計算機視覺領域的核心演算法技術，掌握跨平台模型訓練技術、海量數據生產技術、多目感測器標定與深度估計技術、運動姿態分析技術、人臉識別演算法和引擎技術等多項核心技術。

導航:首頁 > 源碼編譯 > 視覺領域的核心演算法

視覺領域的核心演算法

與視覺領域的核心演算法相關的資料