導航:首頁 > 源碼編譯 > 計算機視覺的演算法的提出

計算機視覺的演算法的提出

發布時間:2022-04-28 17:22:44

『壹』 計算機視覺技術國內 國外發展歷史及現狀

1研究現狀及存在的問題
水果實時分級系統主要功能是水果外部品質和內部品質的自動檢測。水果的外部品質檢測的項目有大小、形狀、顏色、表面缺陷等,內部品質無損檢測的項目為水果的硬度、糖含量、酸度、口味及某些內部缺陷等。
1.1水果外部品質的自動檢測
水果的尺寸和顏色檢測技術已比較成熟,且在國外已經實現自動化檢測,在國內也有按重量或尺寸分級的系統。但果面的缺陷檢測卻一直成為水果實時分級的障礙。
果面缺陷檢測的技術比較復雜,目前存在以下幾方面難題。
1.1.1對水果整個表面進行實時視覺檢測比較困難
在水果分選生產線上,輸送機構輸送水果並把水果整個表面呈現給攝像機,這是水果實時分級系統比較關鍵的組成部分,因為當水果通過時,要求視覺系統能快速檢查每個水果的全部果面,即使很小的缺陷面積,也會使得水果級別發生很大變化。同時,設計的視覺分級系統必須滿足高生產率的要求。在這方面,國外學者(Growe,1996,Tao,1996)[1,2]採用滾子輸送帶使水果一邊移動一邊自身轉動,從而使安裝在輸送帶上方的攝像機能採集到水果的多個面的圖像,達到全表面檢測的目的。但由於水果大小和形狀不規則,造成水果旋轉速度不一致且難以保證按同一軸線旋轉。此外,水果旋轉兩端的表面部分攝像機無法採集到,因此,分級誤差較大。
1.1.2快速而准確地測定水果表面的各種缺陷且與梗、萼凹陷區正確區分比較困難
Miller等(1991)[3]對桃子的分選試驗表明:因不能正確區分水果表面的缺陷和梗、萼凹陷區,由此產生的分級誤差為25%左右。Rehkugler等(1986)[4]利用機械定向機構使蘋果梗、萼處於垂直方向並繞梗萼軸旋轉,CCD線掃描攝像機可掃描蘋果的整個表面且形成一幅圖像,該方法的特點是由機械定向機構定位水果梗、萼區,攝像機對此區不需要再檢查。但因為受定向機構速度的限制,還達不到實時分級的速度,試驗結果為每分鍾選30個蘋果。Yang(1996)[5]利用結構光圖像與散射光圖像相結合來區分梗、萼區和缺陷區,綜合兩方面圖像處理的結果,共抽取16個特徵參數,再利用BP神經網路區分蘋果的梗、萼區和缺陷區,分辨精度為95%,但還需要進一步把試驗結果應用於實際水果分選生產線中。Growe等(1996)[1]採取在780 nm附近帶域內,用結構光由一黑白攝像機進行水果表面的凹陷度檢測;在750 nm帶域內的散射光照射下,由一黑白攝像機進行水果表面的可疑缺陷區檢測。水果的輸送旋轉裝置及攝像機布置如圖1a所示,採用的雙錐滾筒輸送帶可使水果一方面沿水平方向作平移運動,另一方面又繞自身水平軸作旋轉運動。兩個黑白CCD攝像機用來採集750 nm附近的散射光圖像和780 nm附近的結構光圖像,水果旋轉一周攝取兩次圖像。兩個黑白攝像機採集的圖像經過設計的介面電路後,被合成為一幅黑白圖像,合成過程如圖1b所示。圖像的處理由流水線圖像處理系統完成。試驗結果表明:每個水果採集兩幅圖像時,缺陷檢測的速度可達5個/s,但誤差較大,如對於蘋果,碰傷檢測的准確率僅為51%。試驗表明,要想得到較高的檢測精度,每個水果應採集5幅以上的圖像,結構光至少6條以上。此外,由於水果尺寸不同所造成各個水果旋轉速度的不一致,也是產生測量誤差的原因。徐娟(1997)[6]及Nakano(1997)[7]利用人工神經網路法對缺陷區和梗萼區進行區分,試驗表明神經網路的區分准確率較低。在果面各種缺陷的快速檢測方面,Throop(1997)[8]等人研究了多光譜測量技術,對10個品種的蘋果的22種缺陷,在460~1 030 nm光譜范圍內,每隔10 nm試驗測定了它們的反射光譜特性,其中對3種蘋果同一種缺陷測量的結果如圖2所示。圖中縱坐標的馬氏距離反映了水果缺陷區與正常區反射強度的差別程度,距離越大,兩者差別越大。由圖中曲線可看出:在中心為540 nm、740 nm、1 030 nm三波段附近,3種蘋果同一缺陷與正常區的反射強度的差別表現為最大或最小值,最後通過對3個波段的圖像進行簡單的減法和閾值處理,即可得到檢測的缺陷,下一步應考慮實際應用的實現。

(a)(b)

圖1圖像採集布置圖與圖像合成示意圖

(a)輸送裝置及攝像機布置(b) 圖像合成示意圖

圖23種蘋果同一缺陷在460~1 030 nm
范圍內與正常區反射強度的差別情況

1.1.3球形水果表面引起光照強度在投影面內呈曲面分布,以及二維圖像上的透視區域與水果實際表面存在的畸變,給圖像的缺陷檢測帶來困難和造成誤差
Tao(1996)[2]提出的球形變換法很好地解決了第一個問題。基本思想如圖3所示:帶缺陷的原始物體圖像(OOI)與該物體反表面無缺陷的圖像(IOI)相加得到變換後的物體圖像(TOI),此圖像具有平面物體圖像的性質,而缺陷區低於該平面,然後經過簡單閾值處理即可得缺陷區。何東健(1997)[9]提出了缺陷透視圖像面積發生畸變的校正方法,但對復雜形狀的缺陷區進行校正,還存在一定的困難。Nakano(1997)[7]利用一旋轉平台使水果旋轉,每旋轉18°CCD攝像機採集一幅圖像,蘋果旋轉一周可得20幅圖像,為消除蘋果球面面積的畸變,每幅圖像只保留中間13 cm寬度的幅面,再全部合成一幅蘋果整個表面的展開圖像,此法非常有效,但在分選生產線上實現比較困難。

圖3球形變換方法

1.1.4傳統的圖像處理及模式識別演算法的速度不適合實時分選線的要求
國外一般採用高速圖像處理硬體與簡單有效的圖像處理軟體相結合的途徑,來實現水果的實時分級。如Yang(1996)[5]利用的是Transputer系統、結構光法和洪水演算法;Growe等(1996)[1]研製的系統,圖像的大部分工作由流水線圖像處理硬體系統完成;Tao(1996)[2]採用的是專用Merlin圖像處理系統和簡單有效的球形變換法,研製的蘋果分選系統已應用到水果分選生產線上,其分選速度可達3 165個/min。國內研究者(劉禾,1998,徐娟,1997,楊秀坤,1997,何東健,1997)[6,9~11]大多利用一般的微機和圖像採集卡,開發了一些圖像處理和模式識別的新演算法,如把人工神經網路、模糊理論、遺傳演算法、圖像形態學、分形理論、小波理論及人工智慧理論用於圖像特徵的抽取和識別。但由於圖像處理的硬體速度太低,故只能限於靜態水果圖像分選的演算法研究。此外,水果分級的演算法應具備人工分級的一些優良性能,如學習與記憶功能,因為目前的一些分級演算法的訓練樣本都比較少,而要分級的水果品種多變且量大。
1.2水果內部品質無損檢測
反映水果內部品質的主要指標有硬度、糖含量、酸度、口味及內部缺陷等。目前國內外研究的主要方法和存在的問題如下。
1.2.1水果的硬度檢測
水果的硬度可間接反映水果的成熟度、運輸中的抗損壞性、儲藏期等。目前用於水果硬度檢測的方法主要有變形法和聲學法。
變形法就是在一定時間內給水果施加一定的動態力或沖擊力,然後根據測得的變形量確定水果的硬度。如Schmilovitch等(1995)[12]研製成功了棗子硬度自動檢測系統,其原理是把棗子放在兩平板之間,在上面板施加5~8 N的動態力,根據所測變形量的大小把棗子分成4個硬度等級。Delwiche(1991)[13]利用沖擊法研製了蘋果硬度自動檢測系統,發現沖擊力會造成蘋果表面的輕微損傷。變形法只能測量水果表面的局部硬度,實際上,水果表面硬度變化較大,故限制了變形法的應用。
聲學法包括聲波脈沖響應法和超聲波法,聲波脈沖響應法(20~1 500 Hz)就是利用一麥克風測量受輕微敲擊水果的聲波強度,由此確定水果的硬度。Armstrong等(1993)[14]試驗研究了所測聲波強度與水果硬度的關系,發現二者有很好的相關關系。此法的優點是簡單、無損,且能反映水果的整體硬度,缺點是必須注意周圍雜訊的絕緣及機械振動的消除,此外水果形狀也影響測量精度。超聲波(>20 000 Hz)法是根據超聲波在水果等介質中傳播時,能量衰減系數的大小來確定水果硬度。但由於水果內部含有較多氣隙且各向異性,故超聲波很難穿透整個水果。
1.2.2糖含量、酸度、口味的自動檢測
糖含量、酸度比較有潛力的檢測方法是近紅外法(NIR)和磁共振法(MR)。近紅外法又分穿透法、反射法和部分穿透法,部分穿透法原理如圖4所示。穿透法對水果不適應,反射法一般用於水果表面特徵的檢測,因此常用的方法是部分穿透法。由圖4可看出,在部分穿透法中,光線經過的路徑比穿透法短,且入射光線與接收器有一夾角,此夾角的確定對測量起關鍵作用,此外二者之間必須加一隔板。884 nm和834 nm測得量的比值已用於桃子、蘋果(Slaughter ,1995)[15]糖含量的自動測定。Slaughter等(1996)[16]對西紅柿,在400~1 100 nm的光譜范圍內進行部分穿透性測量試驗,結果表明:800~1 000 nm范圍的信息對糖含量的確定最有用,測得的相關系數r=0.92, 但酸度測量比較困難。Mizrach(1997)[17]利用超聲波法試驗研究了超聲波衰減系數和芒果硬度、糖含量、酸度的關系,但其超聲波測量探頭必須與果面接觸,故限制了在線的應用。因此,利用近紅外多光譜技術測定水果內部糖含量及其他成分是很有前途的,為達到實時應用的目的,應進一步確定最合適的一兩個波段並與計算機視覺技術結合。磁共振及磁共振成像(MRI)技術也是測定水果內部成分的有效方法,其依據是物質內部的某些原子核(H、C、P等)在外部磁場作用下,可與射頻區域的電磁波輻射相互作用。Chen等(1996)[18]利用此法對鱷梨的成熟度和鮮杏梅的糖含量進行了一些研究,得到了較好的結果。此法的主要缺點是設備昂貴。

圖4部分穿透法

與水果的口味相關的化學成分主要是可揮發性芳香化合物,當水果成熟時,就會在周圍空氣中散發這種揮發性芳香氣體。Benady等(1995)[19]研製的電子感測器可以測量這種氣體的濃度。
1.2.3水果內部缺陷的檢測
西瓜的內部空心用超聲波檢測已比較成熟。其他缺陷的檢測,目前國外正研究利用X射線法、磁共振和磁共振成像技術等方法測量,因成本高及安全性等問題,故很難在農業中推廣應用。

2研究的途徑及方向探討
水果實時分級系統的進一步研究應從兩方面入手,一方面要加快水果外部品質的計算機視覺實時分選技術的研究;另一方面也要進行水果內部品質的無損檢測技術的研究。因為水果分級的主要目的是選出高質量的水果,故水果內外品質的檢測技術都十分重要。
在水果的外部品質檢測方面,應進行多種技術集成的應用研究。
(1) 對於水果整個表面機器視覺快速檢測的問題,可採用機械與光學技術相結合,設計合理的傳送機構,既保證水果在傳送帶上比較平穩地移動,又可由視覺系統快速檢測到水果的全部表面。盡量減小因水果不規則運動造成的分級誤差、損傷及圖像的模糊。
(2) 對於果梗、萼區與缺陷的檢測與視覺區分方面,應採用多光譜技術與機器視覺技術相結合,研究水果圖像上可疑缺陷區的關鍵特徵參數的抽取方法,得到簡單、有效、快速的圖像處理和識別方法。
(3) 在球形果面造成的光反射強度呈曲面分布及曲面成像面積的畸變問題,可從光照設計、圖像合成及軟體補償3方面綜合考慮。光照的充分設計可解決第一個問題;多幅圖像的有效合成,可解決畸變問題。我們通過試驗表明:一個水果至少應採集5幅圖像,然後再合成為一幅,可基本保證水果整個表面上缺陷的有效檢測,以避免畸變誤差。軟體補償的方法必須簡單而有效,以適合高速的要求。
(4) 在實時系統的圖像處理器硬體設計方面,首先應採取先進的並行CPU晶元,如TMS320C80等;其次處理板的設計應與視覺系統結合起來考慮,如採集多路視覺信號的合成問題,機械機構與視覺系統的同步電路設計等。當然,也可引進國外比較成熟的高速圖像處理主板,而其他技術可由國內自行開發,這樣可以加快國內水果實時分級系統實現自動化的步伐。
(5) 在圖像處理和識別的軟體設計方面,應把傳統方法與現代新方法(神經網路,並行演算法,遺傳演算法,模糊技術,人工智慧,圖像形態學,分形學,小波變換等)結合起來,改變傳統圖像信息的超數據量表達方式,尋求圖像表達與解釋的新方法,力求圖像處理和識別演算法的快速性、有效性及魯棒性。
在水果內部品質檢測方面,聲學振動法是實現硬度自動檢測的有效方法,但應設法消除影響測量精度的因素,並進行在生產線上的應用開發;近紅外局部投射法和磁共振法是水果糖含量、酸度等內部成分自動檢測的有效方法。在國內,近紅外局部投射法更有應用前景,應進一步研究其通用性、穩定性和實用性;內部缺陷的無損檢測應進一步研究新原理和新方法,應採取自己開發和從國外引進相結合的方式。此外,應進行多種感測器測量信息集成技術的研究,這是水果內外品質實現實時自動檢測與分級的有效途徑。

3結語
利用各種現代技術的高度集成,在水果分選生產線上同時完成水果內外品質的檢測與分級是將來進一步研究的方向和目的。隨著科學技術的飛速發展,在我國近期有望實現農產品品質的自動化檢測與分級。

『貳』 什麼叫做計算機視覺領域的演算法測評基線

你指的是baseline嗎?

不同task的baseline不一樣。一般來說指的是一個很基礎的演算法。然後你自己提出的方法需要和baseline進行對比,效果需要比baseline好。

『叄』 計算機視覺領域主流的演算法和方向有哪些

人工智慧是當下很火熱的話題,其與大數據的完美結合應用於多個場景,極大的方便了人類的生活。而人工智慧又包含深度學習和機器學習兩方面的內容。深度學習又以計算機視覺和自然語言處理兩個方向發展的最好,最火熱。大家對於自然語言處理的接觸可能不是很多,但是說起計算機視覺,一定能夠馬上明白,因為我們每天接觸的刷臉支付等手段就會和計算機視覺掛鉤。可以說計算機視覺的應用最為廣泛。

目標跟蹤,就是在某種場景下跟蹤特定對象的過程,在無人駕駛領域中有很重要的應用。目前較為流行的目標跟蹤演算法是基於堆疊自動編碼器的DLT。語義分割,則是將圖像分為像素組,再進行標記和分類。目前的主流演算法都使用完全卷積網路的框架。實例分割,是指將不同類型的實例分類,比如用4種不同顏色來標記4隻貓。目前用於實例分割的主流演算法是Mask R-CNN。

『肆』 cv演算法是什麼

計算機視覺演算法。

計算機視覺是一門研究如何使機器「看」的科學,更進一步的說,就是是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺,並進一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。

作為一個科學學科,計算機視覺研究相關的理論和技術,試圖建立能夠從圖像或者多維數據中獲取『信息』的人工智慧系統。這里所 指的信息指Shannon定義的,可以用來幫助做一個「決定」的信息。

因為感知可以看作是從感官信號中提 取信息,所以計算機視覺也可以看作是研究如何使人工系統從圖像或多維數據中「感知」的科學。

計算機視覺應用的實例包括用於系統:

(1)控制過程,比如,一個工業機器人 。

(2)導航,例如,通過自主汽車或移動機器人。

(3)檢測的事件,如,對視頻監控和人數統計。

(4)組織信息,例如,對於圖像和圖像序列的索引資料庫。

(5)造型對象或環境,如,醫學圖像分析系統或地形模型。

(6)相互作用,例如,當輸入到一個裝置,用於計算機人的交互。

(7)自動檢測,例如,在製造業的應用程序。

『伍』 「視覺計算」與「計算機視覺」有什麼區別

視覺計算是攝像頭記錄的圖像用Python程序計算,產生多維數模。計算機視覺是把計算機攝像頭記錄的圖像經過處理產生相應的功能,比如人臉識別安防和考勤、手勢動作識別進而遙控機器、手寫識別、無人機自動捕捉目標自動跟蹤、導彈自動識別目標、飛機導向飛行,等等。視覺計算是計算機視覺的重要步驟,是小領域和大領域的區別。
在人工智慧領域還有另外一種意思:計算機顯示器是RGB色彩模式,人眼視覺是RGY的色彩模式,即人眼視覺即分為紅、綠、黃三種顏色。藍色的色相值加180就得到黃色。你可以用Photoshop軟體的Ctrl+U<圖像—調整—色相/飽和度>試試看。把照片圖像分解為RGB三種通道的色彩模式,再調整為RGY色彩模式,然後根據腦電波與色相值的對應關系分解為RGY三種顏色模式的腦電波,同時輸入人體大腦,即可實現在計算機與人腦視覺之間直接用腦電波交換圖像。即計算機視覺傳輸。Netfather網路之父徐工老師提出上述觀點,是國際互聯網網站網頁網線發明者。上海岳陽路中國科學院曾經有這個研究生專業,徐工老師曾經在這里進修研究生。

『陸』 計算機視覺的演算法是怎樣的小蟻科技計算機視覺有哪些優勢

科技計算機視覺如果要發揮強大的功能,那麼科技計算機視覺的演算法是十分重要的部分,科技計算機視覺的演算法相當於整套技術的靈魂,有了優秀的演算法,可以讓電腦感知環境的情況,小蟻科技計算機視覺在演算法方面,有專業的團隊,並創造出行業內優秀的演算法,具很強的領先性。

『柒』 計算機視覺中,目前有哪些經典的目標跟蹤演算法

benchmark 2015版:Visual Tracker Benchmark 不過這些演算法都比較新 要看老的話主要是06年這篇paper 和09年有一篇暫時忘記paper名字了
古老的方法比如optical flow,kalman filter(後面的particle filter)……了解不多不瞎扯了

目前tracking主要是兩種,discriminative 和 generative,當然也有combine兩個的比如SCM。你提到的都是前者,就是演算法裡面基本有一個classifier可以分辨要追蹤的物體。這類除了你說的最近比較火的還有速度極占優勢的CSK(後來進化成KCF/DCF了)
另一種generative的方法,大致就是用模版(或者sparse code)抽一堆feature,按距離函數來匹配。L1,ASLA,LOT,MTT都是。

最近才開始了解tracking,所以說得可能並不是很對,僅供參考

『捌』 計算機視覺

計算機視覺概述

1 什麼是計算機視覺

計算機視覺既是工程領域,也是科學領域中的一個富有挑戰性重要研究領域。計算機視覺是一門綜合性的學科,它已經吸引了來自各個學科的研究者參加到對它的研究之中。其中包括計算機科學和工程、信號處理、物理學、應用數學和統計學,神經生理學和認知科學等。

視覺是各個應用領域,如製造業、檢驗、文檔分析、醫療診斷,和軍事等領域中各種智能/自主系統中不可分割的一部分。由於它的重要性,一些先進國家,例如美國把對計算機視覺的研究列為對經濟和科學有廣泛影響的科學和工程中的重大基本問題,即所謂的重大挑戰(grand challenge)。計算機視覺的挑戰是要為計算機和機器人開發具有與人類水平相當的視覺能力。機器視覺需要圖象信號,紋理和顏色建模,幾何處理和推理,以及物體建模。一個有能力的視覺系統應該把所有這些處理都緊密地集成在一起。[Neg91]作為一門學科,計算機視覺開始於60年代初,但在計算機視覺的基本研究中的許多重要進展是在80年代取得的。現在計算機視覺已成為一門不同於人工智慧、圖象處理、模式識別等相關領域的成熟學科。計算機視覺與人類視覺密切相關,對人類視覺有一個正確的認識將對計算機視覺的研究非常有益。為此我們將先介紹人類視覺。

1.1 人類視覺

感覺是人的大腦與周圍世界聯系的窗口,它的任務是識別周圍的物體,並告訴這些物體之間的關系。我們的思維活動是以我們對客觀世界與環境的認識為基礎的,而感覺則是外界是客觀世界與我們對環境的認識之間的橋梁,使我們的思維與周圍世界建立某種對應關系。視覺則是人最重要的感覺,它是人的主要感覺來源,人類認識外界信息的80%來自視覺。

人有多種感覺,但對人的智力產生影響的主要是視覺和聽覺。味覺和嗅覺是豐富多樣的,但很少有人去思考它們。在視覺和聽覺中形狀、色彩、運動、聲音等就很容易被結合成各種明確和高度復雜、多樣的空間和時間的組織結構。所以這兩種感覺就成了理智活動得以行使和發揮作用的非常合適的媒介和環境。但人聽到的聲音要想具有意義還需要聯系其它的感性材料。而視覺則不同,它是一種高度清晰的媒介,它提供關於外界世界中各種物體和事件的豐富信息。因此它是思維的一種最基本的工具。

視覺對正常人來說是生而有之,毫不費力的能力。但實際上視覺系統所完成的功能卻十分復雜的。有人認為視覺本身就包含了思維的一切基本因素。設想你要在一個會場中尋找一位朋友,呈現在你眼前的是由參加會議的人、桌、椅、主席台等組成的復雜景物。眼睛得到這些信息以後先要對景物的各部分進行分類,然後從中選出與朋友的外表有關的特徵作出判斷,那麼在人的眼睛視網膜上映照的景物成象是否就能直接提供判斷時所需要的有關特徵呢?不是的,這里需要大腦的思考。例如,雖然人在不同距離處觀察同一物體時在眼睛中成象的大小是不同的。但人們在觀察某人以便估計他的身高時卻不會因為他在近處而感到他高些,也不會因他在遠處而感到他矮些。這是由於大腦根據被觀察物體的距離和與周圍物體的比較,並依靠有關的知識對輸入的圖象信息進行處理,解釋的結果。如果你是在一個燈光暗淡的劇院中尋找朋友,這個問題就變得更為困難。你剛走進劇院時開始會感到一片漆黑看不清東西,過了幾分鍾你的眼睛變得習慣於在黑暗中觀察。事實上你的視覺系統在此期間中對微光變得更敏感了。但這時許多本來可用的信息喪失了,物體可能難以與背景相區分,許多細節難以分辨。即使這樣人也總能認出朋友。總之,視覺是一個復雜的感知和思維的過程,視覺器官-眼睛接受外界的刺激信息,而大腦對這些信息通過復雜的機理進行處理和解釋,使這些刺激具有明確的物理意義。

從以上分析我們還可以看到敏感(Sansation)、感覺(Perception)、認知(Cognition)這三個概念之間的聯系和差別。敏感是把外界的各種刺激轉換成人體神經系統能夠接受的生物電信號。它所完成的是信號的轉換,並不涉及對信號的理解。例如,人眼是視覺的敏感器官,它使光信號通過視網膜轉換電信號。與攝象機的光電感測器相似,視網膜的感光細胞對光信號在平面上進行采樣,產生點陣形式的電信號,所不同的僅是攝象機的空間采樣是均勻的,而視網膜的采樣是不均勻的,在中央凹附近采樣解析度高,而在周圍的解析度低。而感覺的

任務是把敏感器官的各種輸入轉換和處理成為對外部世界的理解。例如,對視覺來說就是能說出周圍世界中有什麼東西和這些東西之間的空間關系。這些都是關於周圍世界的概念。從輸入的點陣形式的信號到形式對客觀世界的各種概念其中要經過復雜的信息處理和推理。而認知是以人們對周圍客觀世界的概念為基礎的。如果沒有感覺這個人與外部世界的橋梁或窗口,人的思維活動就換去基本的依據。

1.2 計算機視覺

人類正在進入信息時代,計算機將越來越廣泛地進入幾乎所有領域。一方面是更多未經計算機專業訓練的人也需要應用計算機,而另一方面是計算機的功能越來越強,使用方法越來越復雜。這就使人在進行交談和通訊時的靈活性與目前在使用計算機時所要求的嚴格和死板之間產生了尖銳的矛盾。人可通過視覺和聽覺,語言與外界交換信息,並且可用不同的方式表示相同的含義,而目前的計算機卻要求嚴格按照各種程序語言來編寫程序,只有這樣計算機才能運行。為使更多的人能使用復雜的計算機,必須改變過去的那種讓人來適應計算機,來死記硬背計算機的使用規則的情況。而是反過來讓計算機來適應人的習慣和要求,以人所習慣的方式與人進行信息交換,也就是讓計算機具有視覺、聽覺和說話等能力。這時計算機必須具有邏輯推理和決策的能力。具有上述能力的計算機就是智能計算機。

智能計算機不但使計算機更便於為人們所使用,同時如果用這樣的計算機來控制各種自動化裝置特別是智能機器人,就可以使這些自動化系統和智能機器人具有適應環境,和自主作出決策的能力。這就可以在各種場合取代人的繁重工作,或代替人到各種危險和惡劣環境中完成任務。

計算機視覺就是用各種成象系統代替視覺器官作為輸入敏感手段,由計算機來代替大腦完成處理和解釋。計算機視覺的最終研究目標就是使計算機能象人那樣通過視覺觀察和理解世界,具有自主適應環境的能力。要經過長期的努力才能達到的目標。因此,在實現最終目標以前,人們努力的中期目標是建立一種視覺系統,這個系統能依據視覺敏感和反饋的某種程度的智能完成一定的任務。例如,計算機視覺的一個重要應用領域就是自主車輛的視覺導航,目前還沒有條件實現象人那樣能識別和理解任何環境,完成自主導航的系統。因此,目前人們努力的研究目標是實現在高速公路上具有道路跟蹤能力,可避免與前方車輛碰撞的視覺輔助駕駛系統。這里要指出的一點是在計算機視覺系統中計算機起代替人腦的作用,但並不意味著計算機必須按人類視覺的方法完成視覺信息的處理。計算機視覺可以而且應該根據計算機系統的特點來進行視覺信息的處理。但是,人類視覺系統是迄今為止,人們所知道的功能最強大和完善的視覺系統。如在以下的章節中會看到的那樣,對人類視覺處理機制的研究將給計算機視覺的研究提供啟發和指導。因此,用計算機信息處理的方法研究人類視覺的機理,建立人類視覺的計算理論,也是一個非常重要和信人感興趣的研究領域。這方面的研究被稱為計算視覺(Computational Vision)。計算視覺可被認為是計算機視覺中的一個研究領域。

有不少學科的研究目標與計算機視覺相近或與此有關。這些學科中包括圖象處理、模式識別或圖象識別、景物分析、圖象理解等。由於歷史發展或領域本身的特點這些學科互有差別,但又有某種程度的相互重迭。為了清晰起見,我們把這些與計算機視覺有關的學科研究目標和方法的角度加以歸納。

1. 圖象處理

圖象處理技術把輸入圖象轉換成具有所希望特性的另一幅圖象。例如,可通過處理使輸出圖象有較高的信-噪比,或通過增強處理突出圖象的細節,以便於操作員的檢驗。在計算機視覺研究中經常利用圖象處理技術進行預處理和特徵抽取。

2. 模式識別(圖象識別)

模式識別技術根據從圖象抽取的統計特性或結構信息,把圖象分成予定的類別。例如,文字識別或指紋識別。在計算機視覺中模式識別技術經常用於對圖象中的某些部分,例如分割區域的識別和分類。

3. 圖象理解(景物分析)

給定一幅圖象,圖象理解程序不僅描述圖象本身,而且描述和解釋圖象所代表的景物,以便對圖象代表的內容作出決定。在人工智慧視覺研究的初期經常使用景物分析這個術語,以強調二維圖象與三維景物之間的區別。圖象理解除了需要復雜的圖象處理以外還需要具有關於景物成象的物理規律的知識以及與景物內容有關的知識。

在建立計算機視覺系統時需要用到上述學科中的有關技術,但計算機視覺研究的內容要比這些學科更為廣泛。計算機視覺的研究與人類視覺的研究密切相關。為實現建立與人的視覺系統相類似的通用計算機視覺系統的目標需要建立人類視覺的計算機理論。

『玖』 人工智慧,計算機視覺和機器學習的區別

從概念的提出到走向繁榮

1956年,幾個計算機科學家相聚在達特茅斯會議(Dartmouth Conferences),提出了「人工智慧」的概念。其後,人工智慧就一直縈繞於人們的腦海之中,並在科研實驗室中慢慢孵化。之後的幾十年,人工智慧一直在兩極反轉,或被稱作人類文明耀眼未來的預言;或者被當成技術瘋子的狂想扔到垃圾堆里。坦白說,直到2012年之前,這兩種聲音還在同時存在。

過去幾年,尤其是2015年以來,人工智慧開始大爆發。很大一部分是由於GPU的廣泛應用,使得並行計算變得更快、更便宜、更有效。當然,無限拓展的存儲能力和驟然爆發的數據洪流(大數據)的組合拳,也使得圖像數據、文本數據、交易數據、映射數據全面海量爆發。

讓我們慢慢梳理一下計算機科學家們是如何將人工智慧從最早的一點點苗頭,發展到能夠支撐那些每天被數億用戶使用的應用的。

人工智慧(Artificial Intelligence)——為機器賦予人的智能

成王(King me):能下國際跳棋的程序是早期人工智慧的一個典型應用,在二十世紀五十年代曾掀起一陣風潮。(譯者註:國際跳棋棋子到達底線位置後,可以成王,成王棋子可以向後移動)。

早在1956年夏天那次會議,人工智慧的先驅們就夢想著用當時剛剛出現的計算機來構造復雜的、擁有與人類智慧同樣本質特性的機器。這就是我們現在所說的「強人工智慧」(General AI)。這個無所不能的機器,它有著我們所有的感知(甚至比人更多),我們所有的理性,可以像我們一樣思考。

人們在電影里也總是看到這樣的機器:友好的,像星球大戰中的C-3PO;邪惡的,如終結者。強人工智慧現在還只存在於電影和科幻小說中,原因不難理解,我們還沒法實現它們,至少目前還不行。

我們目前能實現的,一般被稱為「弱人工智慧」(Narrow AI)。弱人工智慧是能夠與人一樣,甚至比人更好地執行特定任務的技術。例如,Pinterest上的圖像分類;或者Facebook的人臉識別。

這些是弱人工智慧在實踐中的例子。這些技術實現的是人類智能的一些具體的局部。但它們是如何實現的?這種智能是從何而來?這就帶我們來到同心圓的裡面一層,機器學習。

機器學習—— 一種實現人工智慧的方法

健康食譜(Spam free diet):機器學習能夠幫你過濾電子信箱里的(大部分)垃圾郵件。(譯者註:英文中垃圾郵件的單詞spam來源於二戰中美國曾大量援助英國的午餐肉品牌SPAM。直到六十年代,英國的農業一直沒有從二戰的損失中恢復,因而從美國大量進口了這種廉價的罐頭肉製品。據傳聞不甚好吃且充斥市場。)

機器學習最基本的做法,是使用演算法來解析數據、從中學習,然後對真實世界中的事件做出決策和預測。與傳統的為解決特定任務、硬編碼的軟體程序不同,機器學習是用大量的數據來「訓練」,通過各種演算法從數據中學習如何完成任務。

機器學習直接來源於早期的人工智慧領域。傳統演算法包括決策樹學習、推導邏輯規劃、聚類、強化學習和貝葉斯網路等等。眾所周知,我們還沒有實現強人工智慧。早期機器學習方法甚至都無法實現弱人工智慧。

機器學習最成功的應用領域是計算機視覺,雖然也還是需要大量的手工編碼來完成工作。人們需要手工編寫分類器、邊緣檢測濾波器,以便讓程序能識別物體從哪裡開始,到哪裡結束;寫形狀檢測程序來判斷檢測對象是不是有八條邊;寫分類器來識別字母「ST-O-P」。使用以上這些手工編寫的分類器,人們總算可以開發演算法來感知圖像,判斷圖像是不是一個停止標志牌。

這個結果還算不錯,但並不是那種能讓人為之一振的成功。特別是遇到雲霧天,標志牌變得不是那麼清晰可見,又或者被樹遮擋一部分,演算法就難以成功了。這就是為什麼前一段時間,計算機視覺的性能一直無法接近到人的能力。它太僵化,太容易受環境條件的干擾。

隨著時間的推進,學習演算法的發展改變了一切。

深度學習——一種實現機器學習的技術
放貓(Herding Cats):從YouTube視頻裡面尋找貓的圖片是深度學習傑出性能的首次展現。(譯者註:herdingcats是英語習語,照顧一群喜歡自由,不喜歡馴服的貓,用來形容局面混亂,任務難以完成。)

人工神經網路(Artificial Neural Networks)是早期機器學習中的一個重要的演算法,歷經數十年風風雨雨。神經網路的原理是受我們大腦的生理結構——互相交叉相連的神經元啟發。但與大腦中一個神經元可以連接一定距離內的任意神經元不同,人工神經網路具有離散的層、連接和數據傳播的方向。

例如,我們可以把一幅圖像切分成圖像塊,輸入到神經網路的第一層。在第一層的每一個神經元都把數據傳遞到第二層。第二層的神經元也是完成類似的工作,把數據傳遞到第三層,以此類推,直到最後一層,然後生成結果。

每一個神經元都為它的輸入分配權重,這個權重的正確與否與其執行的任務直接相關。最終的輸出由這些權重加總來決定。

我們仍以停止(Stop)標志牌為例。將一個停止標志牌圖像的所有元素都打碎,然後用神經元進行「檢查」:八邊形的外形、救火車般的紅顏色、鮮明突出的字母、交通標志的典型尺寸和靜止不動運動特性等等。神經網路的任務就是給出結論,它到底是不是一個停止標志牌。神經網路會根據所有權重,給出一個經過深思熟慮的猜測——「概率向量」。

這個例子里,系統可能會給出這樣的結果:86%可能是一個停止標志牌;7%的可能是一個限速標志牌;5%的可能是一個風箏掛在樹上等等。然後網路結構告知神經網路,它的結論是否正確。

即使是這個例子,也算是比較超前了。直到前不久,神經網路也還是為人工智慧圈所淡忘。其實在人工智慧出現的早期,神經網路就已經存在了,但神經網路對於「智能」的貢獻微乎其微。主要問題是,即使是最基本的神經網路,也需要大量的運算。神經網路演算法的運算需求難以得到滿足。

不過,還是有一些虔誠的研究團隊,以多倫多大學的Geoffrey Hinton為代表,堅持研究,實現了以超算為目標的並行演算法的運行與概念證明。但也直到GPU得到廣泛應用,這些努力才見到成效。

我們回過頭來看這個停止標志識別的例子。神經網路是調制、訓練出來的,時不時還是很容易出錯的。它最需要的,就是訓練。需要成百上千甚至幾百萬張圖像來訓練,直到神經元的輸入的權值都被調製得十分精確,無論是否有霧,晴天還是雨天,每次都能得到正確的結果。

只有這個時候,我們才可以說神經網路成功地自學習到一個停止標志的樣子;或者在Facebook的應用里,神經網路自學習了你媽媽的臉;又或者是2012年吳恩達(Andrew Ng)教授在Google實現了神經網路學習到貓的樣子等等。

吳教授的突破在於,把這些神經網路從基礎上顯著地增大了。層數非常多,神經元也非常多,然後給系統輸入海量的數據,來訓練網路。在吳教授這里,數據是一千萬YouTube視頻中的圖像。吳教授為深度學習(deep learning)加入了「深度」(deep)。這里的「深度」就是說神經網路中眾多的層。

現在,經過深度學習訓練的圖像識別,在一些場景中甚至可以比人做得更好:從識別貓,到辨別血液中癌症的早期成分,到識別核磁共振成像中的腫瘤。Google的AlphaGo先是學會了如何下圍棋,然後與它自己下棋訓練。它訓練自己神經網路的方法,就是不斷地與自己下棋,反復地下,永不停歇。

深度學習,給人工智慧以璀璨的未來

深度學習使得機器學習能夠實現眾多的應用,並拓展了人工智慧的領域范圍。深度學習摧枯拉朽般地實現了各種任務,使得似乎所有的機器輔助功能都變為可能。無人駕駛汽車,預防性醫療保健,甚至是更好的電影推薦,都近在眼前,或者即將實現。

人工智慧就在現在,就在明天。有了深度學習,人工智慧甚至可以達到我們暢想的科幻小說一般。你的C-3PO我拿走了,你有你的終結者就好了。

閱讀全文

與計算機視覺的演算法的提出相關的資料

熱點內容
富士康伺服器是什麼 瀏覽:452
編譯是二進制嗎 瀏覽:262
小程序賬號登錄源碼 瀏覽:876
雲南社保局app叫什麼 瀏覽:693
美女程序員吃大餐 瀏覽:208
項目二級文件夾建立規則 瀏覽:558
dns使用加密措施嗎 瀏覽:172
php獨立運行 瀏覽:531
手機sh執行命令 瀏覽:729
雲伺服器的角色 瀏覽:735
單片機頻率比例 瀏覽:842
我的世界伺服器如何關閉正版驗證 瀏覽:506
如何查roid伺服器上的 瀏覽:132
安卓手機主板如何撬晶元不掉電 瀏覽:251
php各個框架的優缺點 瀏覽:103
php1100生成數組 瀏覽:361
以後做平面設計好還是程序員好 瀏覽:554
雲伺服器應用管理 瀏覽:440
飢荒雲伺服器搭建過程 瀏覽:188
可編程式控制制器優點 瀏覽:101