導航:首頁 > 源碼編譯 > 感知演算法招聘北京

感知演算法招聘北京

發布時間:2022-08-16 19:13:48

1. 地平線與覺非科技達成生態戰略合作 布局自動駕駛量產方案

易車訊 5月11日,地平線與覺非科技正式成為生態戰略合作夥伴,雙方將基於地平線征程系列車規級AI晶元,結合覺非科技多感測器融合演算法能力,面向全場景智能駕駛應用落地進行深度合作,並以「晶元+解決方案」集成的形式面向市場,攜手推進中國自動駕駛的量產落地。

覺非科技視覺融合定位量產解決方案——基於地平線征程3車規級AI芯

此次,雙方進一步達成基於地平線征程5晶元的深度合作,聯合布局高級別智能駕駛的量產解決方案,覺非科技也將成為首個將融合定位演算法適配部署於征程5的軟體供應商。未來雙方將持續拓展與深化合作,探討自動駕駛、自主泊車、車路協同等市場領域與應用機會,攜手推動智能駕駛技術面向全業務場景的量產落地。

2. 不依賴高精地圖毫末智行顧維灝揭秘為何毫末選擇重感知路線

易車訊 「針對自動駕駛存在的很多問題,我們應當以第一性原理去思考它們的本質,由此才有可能做出不一樣的產品。」7月8日,毫末智行CEO顧維灝受邀參加了2022第十四屆中國汽車藍皮書論壇,並對「用戶需要何種自動駕駛」展開交流討論。顧維灝表示,產品能力的持續進步,只有一條路,就是大數據的驅動,坐在辦公室里靠幾個人的設想,是做不出好產品的。


本屆論壇以「刷新」為主題,有超過60場主題演講、12場議題討論。大會邀請了東風汽車、上汽集團、北汽集團、一汽集團、長城汽車、奇瑞汽車、戴姆勒、蔚來、小鵬、網路、華為、地平線等上百位中國汽車業最具思考深度的領袖和精英為行業發展貢獻年度思想盛宴與腦力激盪風暴。



一款滿足用戶訴求的城市域高級輔助駕駛產品應該是什麼樣的?在此之前,很多自動駕駛企業都將競爭的核心放在了感知硬體的和高精地圖上,但顧維灝則提出了自動駕駛行業的發展趨勢,發表了自己的看法,「高精地圖與激光雷達最早之所以出現,是因為當時自動駕駛技術的攝像頭感知能力較弱,並且算力性能也並不足以支撐感知演算法;如今不僅攝像頭像素有了大幅提升,大算力晶元也開始不斷涌現,感知能力得到了大幅度提升,甚至成本昂貴的激光雷達成本也逐漸開始了下探。」


由此,毫末智行提出了「重感知」技術方案。其以數據智能體系MANA為核心,通過海量數據哺育,令MANA學習時長超過了24萬小時,虛擬駕齡相當於人類司機駕駛2萬年,這能夠讓毫末城市NOH摸索並掌握應對各類復雜城市場景的駕駛要訣,由此實現從「新手」到「老司機」的蛻變,讓駕駛者與乘客享受安全、舒適與高效的出行。


優秀的用戶體驗並不僅限於安全、舒適與高效,事實上,用戶在使用自動駕駛產品的過程中依舊有很多值得自動駕駛企業關注與改進的細節。對此,顧維灝指出了一個典型的例子,「在開啟高速NOH的車輛經過大型貨車時,駕駛者往往會因為對大車的恐懼,本能地接管車輛,即使車輛此時並不會與大車發生碰撞。」


對此,顧維灝介紹毫末NOH「智慧躲閃」的功能,「如果右側是大車,我們會設置車輛在左側車道向左偏移10—15厘米。同時毫末NOH會在交互界面進行標注,告知用戶車輛的規避動作,給用戶心理上預期。」顧維灝提到,「這一功能起初會使用模擬人工語音提醒用戶,但當道路上遭遇大量大車時,頻繁的提示語音又會給用戶帶來更多困擾。後來我們就把這個交互改成了低聲的短聲音,這樣就比之前的語音提醒更容易讓用戶接受。」這個案例可以看出,通過對細節的關注與調整,毫末智行逐漸讓輔助駕駛產品更成熟,正逐步實現產品的差異化。


顧維灝清晰且獨到的觀點,也引發現場不少嘉賓的討論與熱議。本屆中國汽車藍皮書論壇本屆以「刷新」為主題,背後展示了行業的高速發展,攜手破界創新,穿越周期。

3. 怎麼找相似圖

有時候收藏了一些有趣的圖片,想查找一下這些圖片的來源和一些類似這樣的圖片,但是不知道如何去找,其實網路就有這個查找功能,一起來試一試吧。
材料/工具
電腦
方法
1/4
首先用360瀏覽器打開網路,可以看到搜索框有一個照相機的小圖標。

2/4
然後點擊一下相機的小圖標,會出現提示拖拽一張照片或者上傳一張照片。

3/4
這里選擇上傳,選一張自己想找的相似的圖片,然後雙擊圖片。

4/4
好了,這個時候強大的360瀏覽器網路就為我們搜索出了圖片的來源和出處,還有類似的很多圖片哦,快去試一試吧。

一 在游覽網頁時看見一些圖片我們想多了解圖片的更多信息用網路搜圖,打開網路首頁。
二 選擇圖片

三 在輸入框後面 點擊識圖圖標。

四 如果你要搜索的圖片在本地就選擇本地,點擊從本地上傳。

五 在本地找到想要查找的圖片,點擊要找的圖片。

六 在文件名後面點擊打開,圖片開始上傳。

七 稍等片刻,圖片搜索成功

4. 匯集5家頭部激光雷達企業,暢談激光雷達的機遇與挑戰

通過此次論壇上的各位激光雷達領域的大佬發言我們對這個行業,對這個領域的技術都有一個更深入的理解和認識,自動駕駛的元年無論到底何時,確定的是就在眼前並且我們會一同見證,技術路線的比較還要依照可靠性、成本以及不同主機廠的不同需求來決定,行業內的競爭一定是促進整個行業共同發展的必要因素,各家在最終之戰打響之前要做的就是不斷豐富自己的產品以及滿足主機廠和用戶的需求,盡可能的在保證可靠性的同時降低成本。我們可以看到中國的初創科技公司在用他們的智慧與膽識與全世界的智能駕駛同行展開著激烈競爭與激辯,未來我們能否實現彎道超車,打造我們中國的矽谷?讓我們拭目以待。

5. 「高分」無人機比拼人工智慧「大腦」,15支勁旅在上海交大一決高下

一架金色的無人機在精細入微的3D場景中自由穿行,密林、河流、峽谷構成了變幻莫測的室內外場景地形,無人機從停機坪自主起飛後,非常流暢地穿越障礙圈,對樹樁上的二維碼進行識別並拍照,最後安全地降落在樹林後的停機坪上。

神奇的是這一切都是無人機自主實現的,沒有任何人為操控的操作。這一切正是第三屆全國「高分」無人飛行器智能感知技術競賽的線上模擬比賽場景,結合人工智慧和深度學習的控制感知演算法,模糊了科幻未來與現實技術的界限。

經過7月中旬線上模擬賽(初賽)的激烈比拼,來自全國各地的參賽隊伍中,上海交通大學、中國電子 科技 集團公司第二十研究所、長安大學、浙江大學、大連理工大學、華東理工大學、北斗西虹橋新智道樞公司、北京航空航天大學、上海工程技術大學、南昌大學、上海七寶中學等15支學生及企業隊伍脫穎而出。

8月25日,參賽隊伍來到上海交通大學閔行校區微電子大樓,在真實場景中進行速度與激情的比拼。決賽中的無人機都融入了各個參賽隊伍自主設計的智能感知演算法,從停機坪自動起飛後,機載感測器就是無人機的「千里眼」,配合擁有人工智慧演算法的「大腦」,對需要穿越的障礙圈標簽一一進行目標檢測,在盡可能短的時間內做出自主決策,調整好無人機的姿態快速穿越障礙圈,進入人造小樹林後對所有抽簽得到的二維碼進行搜索拍照,完成以上任務後無人機將自動返回停機坪。

在無人機的一些應用場景中,例如搜索和救援或包裹遞送,更快的速度將是非常有益的,因此無人機的「自主」與「競速」兩者均是比賽的重點與難點。如何做到讓無人機又快又好地完成各項挑戰,很大程度上依賴於各支參賽隊伍自主設計的高效智能演算法,盡可能用較少的信息來預測周圍的環境信息從而做出決策。

第三屆全國「高分」無人飛行器智能感知技術競賽,由高解析度對地觀測系統重大專項管理辦公室、教育部科學技術司、中國電子學會、上海交通大學共同組織推動。以「自主感知 競速未來」為主題,旨在加強智能感知技術的研發、人才培養、創新孵化、技術應用、產學研合作。希望藉助本次比賽,為國家培養人工智慧技術創新人才,實現高校科研成果轉化,進一步加深與產業界之間的聯系,推進新一輪的 科技 革命和產業變革。

競賽同時還開展相關技術創新課程建設和競賽培訓,協同推動無人飛行器智能感知領域的創新創業,擬通過三至五年努力,以及 社會 化推廣和市場化運作,使競賽成為青年人才培養、創新和創業有影響力的品牌,共同推動高分無人飛行器智能感知技術的創新發展。

上海交大電子信息與電氣工程學院高分無人飛行器智能感知技術競賽實驗室致力於在無人系統和智能感知領域打造具有全球影響力和國際先進水平的專業賽事;通過競賽合作聯盟,共同構建標准化的無人飛行器智能感知技術創新競賽場景、測試流程規范和統一的競賽服務平台。

作者:盧思語 袁婧攝影攝像:袁婧

6. 戴姆勒金融機構在中國的分公司在什麼地方

摘要 (一)招聘崗位

7. 蔣京芳:禾多科技如何探索自動駕駛全場景落地| 汽車產經

2021年12月16日,由中國汽車工程學會和中國智能網聯汽車產業聯盟聯合主辦的2021第三屆國際汽車智能共享出行大會在廣州花都開幕。禾多科技合夥人、高級副總裁蔣京芳在會上發表主題演講,分享了禾多科技在自動駕駛全場景落地方面的探索。

禾多科技由倪凱博士創立於2017年,其使命是通過自動駕駛技術,賦能和升級人們的移動出行,專注於行車、泊車兩個方面的自動駕駛解決方案探索。目前,其領航輔助功能以及可以實現高速公路的自動跟車,主動變道,以及實現上下匝道切換,明年將在廣汽實現量產。而自動泊車功能則可以自主學習,實現記憶泊車。

在實現自動駕駛功能的路上,如何做到安全好用,蔣京芳也分享了禾多科技的經驗,會通過不斷的驗證,場景與數據的回傳,持續對模型加以訓練,優化演算法,再通過遠程刷新的方式反饋給車輛,實現閉環。

以下為演講實錄:

女士們,先生們,大家下午好,首先感謝主辦方的邀請,今天有機會跟大家分享禾多在自動駕駛全場景落地方面的探索,首先請允許我簡單介紹一下禾多,禾多的名字很好記,就是移動的移,禾多是2017年由倪凱博士創立的,所以是一個年輕的科技公司,從字面上不難解讀到禾多的使命,就是通過自動駕駛技術,賦能和升級人們的移動出行。

禾多創立四年以來,先後經歷過我們的投資,融資,兩輪都發生在今年,今年的4月份第一輪和10月份新一論,特別值得一提的就是10月份有幸得到了廣汽資本的戰略投資,廣汽集團成為禾多的重要股東。

禾多在過去的四年中,最近兩年取得飛速發展,我們成立了兩個閉環300多人的團隊,四大認證體系,以及在五個地區都有相關的辦事處,兩個閉環怎麼說呢,就是在北京,武漢的團隊,主要專注於演算法,專注於平台的開發以及創新,由倪凱博士親自負責,位於蘇州,廣州,以及上海的團隊,我們主要打造的是量產、交付。所以我們在蘇州、上海以及廣州更多的是工程化的人員。

我們除了有地圖資質以外,也申請甲級的資質,我們獲得了16949等質量體系認證。

介紹了禾多公司,接下來談談禾多的產品,因為禾多在整個的四年中還是非常專注的,不忘初心,致力於本地數據的自動駕駛解決方案,專注於兩個方案,一個行車,一個泊車,當然了,再細分的話,又分為高速公路的自動駕駛,低速的泊車功能,這里有幾個視頻,跟大家簡單分享一下我們目前的開發狀態,這個是我們的智能領航輔助功能,主要結合多個攝像頭,前視,側視,毫米波雷達,前向毫米波雷達,側向毫米波雷達,同時結合導航的信息,針對這些感測器的信息進行融合,規劃以及控制,這里可以看到,可以實現高速公路的自動跟車,主動變道,以及實現上下匝道切換,在彎道,隧道以及施工場景的話,也是基於感測信息和地圖信息,可以很好地應對。

這個功能如果再往下延伸的話,就是城區自動駕駛功能,這還需要更多的感測器,比如說激光雷達,通過對紅綠燈的識別可以實現無保護左轉等等,剛才講到的高速公路的自動駕駛,在明年在廣汽量產,明年把程序功能量產,這是自動駕駛的功能,叫做HOLOMATIC,第一遍車輛需要自主學習,然後就可以泊入應泊的地方,上班的時候可以到你住的地方來接你去上班,這就是記憶泊車,再往上的話,就是代客泊車,人直接下車,這輛車自動找它的車位停下來,等你購物之後,這輛車到你的身邊,可以通過手機定位,接你回家。所以這些功能的話,應該對消費者都是非常有用的。

同樣,在自動泊車功能方面,記憶泊車會首發在明年10月份左右量產,自動泊車也會投放量產。剛才說到相關的功能,是靠多種感測器的感知,然後通過域控制器,計算平台進行處理,接下來進行規劃和控制,當然所有的這些技術的最基礎的技術,就是它的感知,就像人的眼睛,看不到做什麼都沒有用。

禾多一直在提升我們的感知能力,包括我們與清華大學有一個聯合的實驗室合作,我們分成兩大類,就是靜態感知和動態感知,靜態感知比如說對車道線的感知,對Free Space的感知,燈桿,紅綠燈,以及我在停車場的車位的感知,動態感知包括對行人,車輛,兩輪車等等的激光雷達,ODD區域的感知,以及相關的融合和預測。

那麼我看到很多的Demo,在公共機上做的,我們一直就是穩扎穩打,把項目投放量產,我們都是基於嵌入式的平台,我們在華為的MDC610部署了神經網路,同時經過後處理和融合,就是全棧感知演算法,可以從這張圖看到,前面是基於前視的輸出,這是側左和側右的輸出,這是我們對障礙物的檢測,2D、3D檢測的結果,後面的這些激光雷達相比的話,還是非常的穩定的,非常精準的。

同樣演算法,我們也部署在TI的TDA4上,對車輛,對車道線,對燈桿,對路牌的感知,除了需要有神經網路的模型之外,還要對這個模型裁剪和優化,這方面我們做的效率還是非常不錯的。

基於激光雷達我們把量產的激光雷達部署在車上,然後基於公開的數據做了後處理,其實這塊的話,主要是可以看到對前面的比如說障礙物,或者是車輛以及行人的一些探測和追蹤,也是比較穩定的,激光雷達的演算法還是持續優化當中。

同樣在低速的泊車環境下,需要用到魚眼攝像頭,這也是基於環視相機的演算法,已經開發完成,而且部署在TI的TDA4的嵌入式平台上,進行了相關的訓練,所以我剛才講到的,接下來要量產的行車,泊車的功能都是基於嵌入式的平台,要麼是MDC要麼是TI的TDA4。剛才說到泊車的功能需要對你的車輛在停車場進行定位,禾多的定位技術也是相當不錯的,基於前視攝像頭,探測到車輛,探測到行人,在停車場的地圖進行實時更新,使得我們剛才講到的泊車功能有比較好的表現。

大家可能注意到了,應該說從去年開始,之前不會談到域控制器,都是一個雷達一個攝像頭,或者五個雷達一個攝像頭,或者超聲波雷達和環視攝像頭這樣的感測器,但是從去年開始就是各種各樣的域控制器,我們有大算力的,華為的MDC,有英偉達的,地平線的J5,有高通,中低算力的TDAA,有J4以及等等其它的晶元,所以作為禾多的話,作為軟體的Tier1,我們的目標就在不同的域控制器,部署功能的演算法,所以我們目前的話也在不停地加強不同平台的適配能力。

有一點可能很多人不知道,現在很多車上都有自動駕駛功能,但是消費者都覺得不好用,我們覺得在主機廠,智能座艙和自動駕駛是兩個功能,不知道怎麼把這個功能在智能座艙上做很好的演示,做智能座艙的人不懂自動駕駛,我們的目標就是打通自動駕駛,智能座艙,我們的一個叫HOLOHMI,不是你主動激活它,而是卡片式的彈出,也更加的友好。比如說開車的時候,有座椅A座椅B,自動駕駛也可以這樣做,通過自動駕駛的模型,可以分為自動駕駛A,B,本人的模型,或者是明星模型,或者是賽車手的模型,所以我們也開發了一個CID1,就是把行車,泊車,城區的自動駕駛的功能把人機交互,做成統一,合一,把做重要的信息高光出來,比如是感測器的信息,什麼時候要變道,變道的原因也展示出來,對於超視距的信息,前方的隧道,也通過人機交互的方式,給用戶很好的體驗,幫助用戶對自動駕駛的功能建立更高的信心,這也是禾多提供的技術支持之一。

剛才講到,自動駕駛功能實現,應該來說,我們需要一點時間就可以實現了,但是怎麼做到安全好用的話,就是我們常說的效應,功能比如說經過一段時間的驗證,可以釋放,但是大批量的驗證,需要投放市場之後,通過影子模式,把相關的場景,傳回到系統中,同時比如說我有自動駕駛數據,我搭建了場景庫,再對現在的模型進行訓練,優化我的演算法,最後通過遠程刷新的方式刷到我們的車上,所以整個閉環的話,需要軟體公司與主機場的深度的合作,在右邊的話,需要更多的合作夥伴的合作,通過眾包的形式對地圖進行實時更新,需要更多搭載自動駕駛的車輛,並且打通車與車之間,還有跟雲端的交互,時間關系我就不一一贅述了。

我有兩個比較簡單的案例,自動駕駛的功能做得好與不好,就是對機械場景的節約能力強與不強,比如說在後台發現一輛車總是在壓線行駛,後來發現這不是一個車道線,而是一個電線桿的陰影,右邊也是的,發現這個車一直是有車道線,但實際上是車在地面上的一個箭頭,一個標識,像這樣的場景的話,我們都必須要靠後台的監控,發現這些場景之後,優化我們的演算法,最終我們就把這種錯誤減少。

大家都說自動駕駛現在很火,也很卷,所以禾多從建立到現在都秉承著開放合作共贏的心態,因為我們需要感測器平台的支持,需要計算平台的支持,包括晶元的支持,同時在上面部署功能,雲端的大數據功能的支持,合作夥伴除了主機廠,有域控制器的公司,晶元的公司,感測器的公司。包括我們在一些項目上,也與我們的友商一起合作,共同推進自動駕駛。

總結一下,禾多的主要專注於行泊一體的全場景的解決方案,我們的目標是適配於多域控制器,除了軟體,我們以軟體的開發為主,目前也在開發相關的硬體平台,我們更需要做的就是不斷提升我們的核心能力,支持主機廠,把更多更好用的功能投放市場,以及與行業的合作夥伴共建生態,我也非常期待與在座的各位大家一起交流,是否有合作的潛力。所以再次感謝主辦方的邀請,希望我們共同推動自動駕駛的發展,讓中國的自動駕駛領跑全球,謝謝大家!

8. 核心演算法是什麼它對機器人有多重要

核心演算法是什麼?

機器人的演算法大方向可以分為感知演算法與控制演算法,感知演算法一般是環境感知、路徑規劃,而控制演算法一般分為決策演算法、運動控制演算法。環境感知演算法獲取環境各種數據,通常指以機器人的視覺所見的圖像識別等 。

核心演算法對機器人的重要性

雖然對於工業機器人來說,要想實現高速下穩定精確的運動軌跡,精密的配件必不可少,如電機,伺服系統,還有非常重要的減速機等等。但是這些都只是硬體的需求,僅僅只有好的硬體,沒有相應的核心演算法,也就是缺少了控制硬體的大腦,那麼工業機器人使用再好的硬體,也只能完成一些精確度要求不高的簡單工作,而且還容易出問題。而這就是中國機器人製造商面臨的最大問題。

作為工業級產品,衡量機器人優劣主要有兩個標准:穩定性和精確性。核心控制器是影響穩定性的關鍵部件,有著工業機器人“大腦”之稱。而軟體相當於語言,把“大腦”的想法傳遞出去。 要講好這門“語言”,就需要底層核心演算法。

好的演算法,幾千行就能讓機器人穩定運行不出故障;差的演算法,幾萬行也達不到人家的水準。不掌握核心演算法,生產精度需求不高的產品還勉強可以,但倘若應用到航天航空、軍工等高端領域,就只能依賴進口工業機器人了。

對於機器人來說,每一個動作都需要核心控制器、伺服驅動器和伺服電機協同動作,而現在的機器人通常擁用多個伺服器,因此多台伺服系統更需要核心演算法提前進行計算。只有通過底層演算法,國外核心控制器才可以通過伺服系統的電流環直接操作電機,實現高動態多軸非線性條件下的精密控制,同時還能滿足極短響應延時的需求。這也是為何如今在中國的機器人市場上,6軸以上的高端機器人幾乎被國外的機器人公司壟斷。

9. 小米自動駕駛目標2024年進入第一陣營,他們累積了哪些技術優勢

首先小米自動駕駛能夠加速行駛。汽車產業鏈企業涵蓋智能駕駛、車載晶元、動力電池等多個領域。關於汽車的內容只佔用了很短的一部分時間。小米放出了一段自動駕駛路測的視頻,已經向外界宣布,自動駕駛將是小米造車的關鍵戰略。之所以選擇自動駕駛作為突破點,不僅是因為自動駕駛技術的高密度,還因為它與安全性高度相關,這也是智能電動汽車取勝的關鍵。目標看似激進,但實際上是小米造車時必須面對的考驗。

要知道的是由於需求疲軟可能會持續很長一段時間,智能手機供應鏈的緊張局勢將加劇,市場將面臨極具挑戰性的商業環境。因此,在未來幾個季度,製造商在與供應鏈和渠道合作夥伴合作時應尋求提高透明度和信任度。盡管各大廠商即將推出新品並有多個假期促銷,但地緣政治問題、消費者信心下降、高通脹等因素將繼續影響大盤未來的市場表現。

10. Transformer為什麼適合自動駕駛毫末智行CEO顧維灝親自揭秘

作為在自然語言處理(NLP)領域應用廣泛的深度學習模型,Transformer 近兩年強勢來襲,不僅橫掃 NLP 領域,而且在 CV 上也鋒芒畢露。江湖傳言,Transformer 架構就像是絕世高手的武林秘籍,得秘籍者得天下!

毫末智行作為國內首先大規模使用 Vision Transformer 技術的公司,CEO顧維灝第一時間在內部推動了此項技術的落地,力求在智能駕駛的賽道上能搶佔先機。

Transformer 的殺手鐧

據顧維灝介紹,最初的 Transformer 來自於 NLP,它的出現將 NLP 領域向前推動了一大步。其中的關鍵要素就是Transformer 具備:超強的序列建模能力、全局信息感知能力。

得益於這兩點優勢,Transformer 幾乎取代了基於 RNN 的演算法在 NLP 中的地位,也被引入到 CV 領域。但值得深入思考的是,Transformer 如何利用優勢在視覺領域發揮作用呢?

要知道 NLP 中處理的是語句,句子是天然的序列數據,所以很容易理解 Transformer 是如何處理它們的。可在視覺領域,「序列」的概念並不是顯式的,因此可以從空間和時間兩個維度去理解。

首先是空間維度,靜態圖像從空間上可以被劃分成多個區域(block),一種典型的劃分方式就是按照高和寬進行劃分,例如,一幅圖像的高和寬分別是 H 和 W,如果要求 block 的長寬均為 M,那麼最終會得到 (H/M W/M) 個 block。

其實可以把 block 看成是 NLP 句子中的詞,這里的只不過是「視覺詞」(visual words)。這樣一來,就可以將一幅圖像轉化成一個按照空間順序排列的 block 集合,一方面這樣的視角轉換保證了不丟失視覺信息,另一方面讓應用 Transformer 變得非常容易。

另一種則是通過時間維度去理解視覺中的序列,即視頻。視頻是由靜態的圖像幀組成,把每一幀看成是一個基本單元(同樣可以類別成句子中的詞),那麼就可以很自然地按照時間序列把一個片段組織起來,從而應用 Transformer 進行後續的特徵提取。

圖引自論文《An Image is Worth 16x16 Words Transformer for Image Recognition at scale」》

除了強大的序列建模能力,Transformer 的主要模塊 Multi-Head Self-Attention 可以同時感知到輸入序列的全局信息,這是 Transformer 相比於 CNN 的巨大優勢。在 CNN 中,信息只能從局部開始,隨著層數的增加,能夠被感知到的區域逐步增大。然而 Transformer 從輸入開始,每一層結構都可以看到所有的信息,並且建立基本單元之間的關聯,也意味著Transformer 能夠處理更加復雜的問題。

Transformer 的優化升級

目前處於 Transformer 在視覺中應用的早期,大家使用 Transformer 的方式主要參考了其在 NLP 中的應用經驗。但是,如果直接將 Transformer 應用到視覺上,也會存在一些難題。

其一,核心模塊多頭注意力機制(Multi-Head Self-Attention )的計算量與 block 的個數成正比,因此在視覺中 block 數量要遠多於 NLP 中句子的詞數,這就造成了計算量的陡增。

其二,Transformer 擅長全局關系的學習,對於局部細節信息關注有限,然而視覺中很多任務需要足夠豐富的細節信息做判斷,比如語義分割。

針對上述的問題, 毫末智行人工智慧研發團隊對核心模塊多頭注意力機制(Multi-Head Self-Attention)進行了優化,同時採用了金字塔的結構增強 Transformer 對於細節信息的感知。

圖引自論文《LeViT a Vision Transformer in ConvNet Clothing for Faster Inference》

Transformer 的未來演化

盡管我們在上面提到了 Transformer 的一些不盡如意之處,但隨著研究的深入,大家逐步發現在同一結構中結合 CNN 和 Transformer 各自的優勢,即可做到相互的揚長避短。在未來,把CNN 和 Transformer 進行整合將成為 Transformer 的演化路徑之一。

具體來說,主幹網使用 CNN,Head 使用 Transformer 結構,可以有效提升網路的速度(相比純使用 Transformer);相反,主幹網使用 Transformer 結構,Head 使用 CNN 的結構,可以有效提升結果精度(相比於純使用 CNN)。

其次,核心模塊 Multi-Head Self-Attention 內部也可以通過降低子空間的維度、對輸入 block 進行分組等手段降低其計算量且不至於損失過多精度。

最後,通過控制 block 的粒度,使 Transformer 能夠感知到不同尺度的信息,從而達到局部和全局的信息融合。

毫末智行團隊已經將上述的改進逐步添加到了毫末智行自己的模型中。未來,我們將不斷在提升速度的同時保證出色的精度,讓 Transformer 在實際的業務中生根發芽。

圖引自論文《End to End Object Detection with Transformers》

基於 Transformer 的感知演算法表現出了極強的泛化性和魯棒性,也因此顧維灝堅定認為,Transformer 的優秀特性極有可能在智能駕駛的場景中發揮出傳統 CNN 演算法所不能企及的感知能力。

目前, 毫末智行的人工智慧團隊正在逐步將基於 Transformer 的感知演算法應用到實際的道路感知問題,例如車道線檢測、障礙物檢測、可行駛區域分割、紅綠燈檢測&識別、道路交通標志檢測、點雲檢測&分割等。 未來,相關 Transformer 感知演算法更加和穩定成熟後,逐步替換基於 CNN 的感知演算法。

Transformer 技術的進一步應用,不僅為毫末智行在各條智能駕駛產品線上的視覺演算法落地帶來成倍的效率提升,還能夠讓各項視覺性能指標快速達到業內領先水平。

閱讀全文

與感知演算法招聘北京相關的資料

熱點內容
安卓登ins需要什麼 瀏覽:835
機器人演算法的難點 瀏覽:225
全自動化編程 瀏覽:725
程序員高薪限制 瀏覽:692
壓縮圖片壓縮 瀏覽:75
美國發明解壓魔方 瀏覽:301
電腦怎麼備案網上伺服器 瀏覽:514
旅行商問題Python寫法 瀏覽:952
解壓破壞王裡面的所有兌換碼 瀏覽:860
文件夾如何拖拽還保留原來的 瀏覽:22
職業生涯pdf 瀏覽:954
ubuntu安裝軟體php 瀏覽:159
黑馬程序員退學流程 瀏覽:362
網頁伺服器崩潰怎麼回事 瀏覽:651
cnc編程前景怎麼樣 瀏覽:320
lniux命令詳解 瀏覽:495
linuxmysql查詢日誌 瀏覽:369
老捷達夥伴壓縮比 瀏覽:94
改後綴加密 瀏覽:433
郵局選址問題演算法 瀏覽:16