㈠ 裸眼3d是什麼
裸眼3D是對不藉助偏振光眼鏡等外部工具,實現立體視覺效果的技術的統稱。
裸眼3D的技術數段:
1、狹縫式液晶光柵。這種技術原理是在屏幕前加了一個狹縫式光柵之後,應該由左眼看到的圖像顯示在液晶屏上時,不透明的條紋會遮擋右眼,使觀者看到3D影像。
2、柱狀透鏡,這種技術原理是通過透鏡的折射原理,將左右眼對應的像素點分別投射在左右眼中,實現圖像分離。對比狹縫光柵技術最大的優點是透鏡不會遮擋光線,所以亮度有了很大改善。
3、指向光源,簡單說來就是精確控制兩組屏幕分別向左右眼投射圖像。
相關應用:
1、移動設備顯示屏:這種顯示屏的主要元件是發光二極體和一種超薄的波導結構,後者主要是控制光譜中的電磁波,其工作原理主要是通過干擾使光線偏斜,讓人眼看到三維立體效果。
2、燈箱:裸眼3D燈箱,是利用人兩眼具有視差的特性,在不需要任何輔助設備的情況下,即可獲得具有空間、深度的逼真立體影像。
3、裸視三維智慧膜:依託分布式光學矩陣技術和AI技術等多項科學技術,研發出的一款可用於手機、平板電腦等終端顯示設備的智慧膜,即可無需佩戴3D眼鏡或頭盔等外在輔助工具。
以上內容參考:網路-裸眼3D
㈡ AR-HUD量產上車為什麼這么慢,難點在哪裡
AR-HUD通過虛擬現實與實際場景結合,提供近場及遠場的警告信息、車輛信息、周圍物體信息、行人信息、導航信息和自動駕駛信息,為駕駛員提供無縫和智能化的駕乘體驗。
相比WHUD,AR-HUD技術有2個優勢:
(1)有虛像距離(VID)變長,FOV變大,因而帶來更佳的使用效果;
(2)除顯示一些傳統的行車、導航信息之外,該系統還能與ADAS功能深度融合,能夠實現車道偏離、前車碰撞、行人預警、超速提醒的高級功能,並將顯示信息與周邊環境相融合。
目前,AR-HUD仍有很多技術問題有待解決,如陽光倒灌、在虛實行車場景不易融合、駕駛員視野追蹤難與UI設計和重影等。隨著晶元算力和AR引擎能力的提升,將進一步推動AR-HUD與輔助駕駛、駕駛員疲勞監測、駕駛員分神、高精地圖、物體識別和多場景顯示技術融合應用。
據國內HUD企業FUTURUS未來黑科技公開資料:
一個真正的增強現實的顯示技術有軟、硬兩個要素,第一硬的部分,需要一個三維的類似於全息影像的顯示器硬體。不同於AR眼鏡,它是裸眼的,能夠呈現類似於全息影像的技術。
第二軟的部分,它的系統和演算法需要一個四維時空的融合。需要在空間坐標X、Y、Z和時間坐標T裡面做精確的融合⌄尤其延時控制這個要求是非常高的,比自動駕駛的要求高十倍。
FUTURUS的光場AR-HUD產品通過3D光場顯示技術、AR Engine和自研多感測器融合演算法,可以實時保持虛擬信息與實景在空間位置上的一致性,消除車載AR融合不佳引起的不適。
FUTURUS的光場AR-HUD克服了AR虛實融合的4大技術難題:
第一步,真實世界的感知:通過原車網路,獲得所有感測器數據,結合AR軟體系統的感測器融合演算法,得到高精度、低延時的真實世界坐標,也就是X、Y、Z空間坐標;
第二步,虛擬世界的呈現:數字虛擬信息必須通過三維光場顯示器呈現,以避免眩暈和視覺輻輳效應;
第三步,空間融合:通過空間坐標系融合演算法和渲染引擎,確保虛擬信息和現實環境完美融合,也就是HUD畫面與道路實景在X、Y、Z空間坐標上的對齊;
最後,是時間融合:在駕駛中車速與周圍環境高速變化的情況下,AR-HUD顯示內容與道路實時動態融合是非常困難的。要做非常極致的延遲控制,甚至需要對於車的行駛軌跡,對於道路上的物體做一個預測。
總結一下,需要用原車的感測器,做一個非常低成本的對於真實世界的感知,然後需要一個三維的全息影像的顯示技術,對於虛擬信息進行呈現,然後再做X、Y、Z空間的融合,最最重要地是它不可以有任何的延遲,否則體驗會非常糟糕。最後才是交互、數據服務等。
㈢ 什麼是光子裸眼AR展示屏有人科普下嗎
從光子晶體科技公開的資料獲得以下介紹,僅供參考,有疑問的地方可以直接聯系他們工作人員。 光子裸眼AR展示屏是一款基於光子透明晶元顯示技術的裸眼增強現實產品。是世界上第一個真正的可以多人共享的增強現實技術。參觀者即能欣賞原有陳列的展品,同時又能觀看完全疊加到展品上的動態產品多媒體信息,實現虛擬信息與現實世界的巧妙融合,打造全新的信息展示方式,給參觀者帶來前所未見的視覺體驗,留下深刻的印象。 應用場景 廣泛應用於各類博物館、科技館、規化館、展廳等。 產品優勢 ● 大尺寸、超高清、全彩色、動態顯示; ● 浮空立體3D顯示,讓虛擬和現實巧妙融合; ● 瞬間抓住參觀者眼球,感受全新的沉浸式場景; ● 支持遠程內容更新,可定時開關機。要是有啥不明白的再問我
㈣ 有人能說說AR,全息和裸眼3D的區別或關系么
全息投影技術也稱虛擬成像技術是利用干涉和衍射原理記錄並再現物體真實的三維圖像的記錄和再現的技術。 裸眼3d則是利用光柵原理。 兩者採用的原理不同,效果也不同。
㈤ 如何理解全息投影,VR,AR這些技術
全息投影技術:屬於3D技術的一種,原指利用干涉原理記錄並再現物體真實的三維圖像的技術。但平時所了解到的全息往往並非嚴格意義上的全息投影,而是使用佩珀爾幻像、邊緣消隱等方法實現3D效果的一種類全息投影技術。
VR:是一種可以創建和體驗虛擬世界的計算機模擬系統,它利用計算機生成一種模擬環境,使用戶沉浸到該環境中。虛擬現實技術就是利用現實生活中的數據,通過計算機技術產生的電子信號,將其與各種輸出設備結合使其轉化為能夠讓人們感受到的現象。
AR:增強現實技術不僅能夠有效體現出真實世界的內容,也能夠促使虛擬的信息內容顯示出來,這些細膩內容相互補充和疊加。在視覺化的增強現實中,用戶需要在頭盔顯示器的基礎上,促使真實世界能夠和電腦圖形之間重合在一起,在重合之後可以充分看到真實的世界圍繞著它。
(5)裸眼ar交互演算法擴展閱讀:
全息成像的原理
全息術的發明人丹尼斯·蓋伯解決的問題是怎樣為所有穿過一個大窗口的光線拍照,而不僅僅是為穿過一個很小的針孔的光線拍照。在透過這個窗口進行觀察的時候,由於每隻眼睛觀察到不同的場景,觀察者會產生立體的感覺。
而且,如果觀察者能夠將他的頭圍繞著窗口外部移動,他可以看到物體的不同的角度(1960年代早期的的一個全息術實驗拍攝了一個物體,物體前面幾厘米的位置擺放了一個放大鏡,觀察者可以通過將頭上下擺動,看到物體透過透鏡成的像和物體本身)。
㈥ 3D裸眼技術是如何實現的
是通過使用開關液晶屏、偏振膜和高分子液晶層來形成一個90度角的垂直條紋系列,從而達到正面視覺上的立體3D效果。
計算機屏幕是平面二維的,之所以能欣賞到真如實物般的三維圖像,是因為顯示在計算機屏幕上時色彩灰度的不同而使人眼產生視覺上的錯覺,而將二維的計算機屏幕感知為三維圖像。
比如要繪制的3d文字,即在原始位置顯示高亮度顏色,而在左下或右上等位置用低亮度顏色勾勒出其輪廓,這樣在視覺上便會產生3d文字的效果。具體實現時,可用完全一樣的字體在不同的位置分別繪制兩個不同顏色的2d文字,只要使兩個文字的坐標合適,就完全可以在視覺上產生出不同效果的3d文字。
視差屏障技術:
就是將兩個不同角度的影像等距離分割成垂直線條狀,然後利用插排(interlace)的方式將左右影像交錯地融合在一起。融合圖形的偶數部分是右影像,奇數部分是左影像。
不過要想達到立體效果,還得把透光狹縫與不透光屏障垂直相間的光柵條紋加在融合圖形上,狹縫與屏障之間的寬度需要與左右影像切割的寬度保持一致,再利用屏障的遮蔽作用,來保證影像與左右眼對應,通過雙眼看到的影像差形成立體感覺。
以上內容參考:網路—裸眼3D技術,網路—裸眼3D
㈦ AR是什麼 它就是未來視覺交互的O2O
AR中的關鍵詞是「功能(Utility)」,AR 技術讓用戶在觀察真實世界的同時,能接收和真實世界相關的數字化的信息和數據,從而對用戶的工作和行為產生幫助。一個典型的應用場景:用戶戴著AR眼鏡,當他看到真實世界中的一家餐廳,眼鏡會馬上顯示這家餐廳的特點、價格等信息。
雖然AR聽上去不如VR那麼新奇,但由於在政府,企業及消費市場上都有廣泛的應用前景,大多數市場機構都認為AR的市場將遠遠大於VR。
AR設備:由於AR是現實場景和虛擬場景的結合,所以基本都需要攝像頭,在攝像頭拍攝的畫面基礎上,結合虛擬畫面進行展示和互動,比如GOOGLE GLASS這些(其實嚴格的來說,IPAD,手機這些帶攝像頭的只能產品,都可以用於AR,只要安裝AR的軟體就可以。)
AR應用了很多computer vision的技術。AR設備強調復原人類的視覺的功能,比如自動去識別跟蹤物體,而不是我手動去指出;自主跟蹤並且對周圍真實場景進行3D建模,而不是我打開Maya照著場景做一個極為相似的。典型的AR設備就是普通移動端手機,升級版如Google Project Tango。
AR=真實世界 + 數字化信息
㈧ 震驚世界的Magic Leap與微軟的Hololens有哪些異同
先說一下我關於Magic Leap的信息來源:
1、2014年11月10日,Magic Leap在2014年9月融了5個億以後,來Stanford招人,開了一個Info Session,標題是「The World is Your New Desktop」(世界就是你的新桌面)多麼霸氣!當時是Magic Leap感知研究的高級副總裁(VP of Perception)Gary Bradski和計算視覺的技術負責人(Lead of Computer Vision)Jean-Yves Bouguet來作演講。Gary是計算機視覺領域的領軍人物,在柳樹車庫(Willow Garage)創造了OpenCV(計算視覺工具庫),同時也是Stanford顧問教授。Jean-Yves原來在Google負責谷歌街景車(Street View Car)的製造,是計算視覺技術的大牛。他們加入Magic Leap是非常令人震驚的。我參加了這次Info Session,當時Gary來介紹Magic Leap在感知部分的技術和簡單介紹傳說中的數字光場Cinematic Reality的原理,並且在允許錄影的部分都有拍照記錄。本文大部分的干貨來自這次演講。
2、我今年年初上了Stanford計算攝影和數字光場顯示的大牛教授Gordon Wetzstein的一門課:EE367 Computational Imaging and Display(計算影像和顯示器):其中第四周的Computational illumination,Wearable displays和Displays Blocks(light field displays)這三節都講到Magic Leap的原理。現在大家也可以去這個課程網站上看到這些資料,EE367 / CS448I: Computational Imaging and Display
順便介紹一下Gordon所在的Stanford計算圖形組,Marc Levoy(後來跑去造Google Glass的大牛教授)一直致力於光場的研究,從Marc Levoy提出光場相機,到他的學生Ren Ng開創Lytro公司製造光場相機,到現在Gordon教授製造光場顯示器(裸眼光場3D顯示器),這個組在光場方面的研究一直是世界的領頭羊。而Magic Leap可能正在成為光場顯示器的最大應用。(相關內容可參考:Computational Imaging Research Overview)
3、今年參加了光場影像技術的研討會Workshop on Light Field Imaging ,現場有很多光場技術方面的展示,我和很多光場顯示技術的大牛交流了對Magic Leap的看法。特別的是,現場體驗了接近Magic Leap的光場技術Demo,來自Nvidia的Douglas Lanman的Near-Eye Light Field Displays 。(相關內容可參考:Near-Eye Light Field Displays)
4、今年年中去了微軟研究院Redmond訪問,研究院的首席研究員Richard Szeliski(計算機視覺大神,計算機視覺課本的作者,Computer Vision: Algorithms and Applications)讓我們試用了Hololens。感受了Hololens牛逼無比的定位感知技術。有保密協議,本文不提供細節,但提供與Magic Leap原理性的比較。
下面是干貨:
首先呢,科普一下Magic Leap和Hololens這類AR眼鏡設備,都是為了讓你看到現實中不存在的物體和現實世界融合在一起的圖像並與其交互。從技術上講,可以簡單的看成兩個部分:
對現實世界的感知(Perception);
一個頭戴式顯示器以呈現虛擬的影像 (Display) 。
我會分感知部分和顯示部分來分別闡釋Magic Leap的相關技術。
一、顯示部分
先簡單回答這個問題:
Q1. Hololens和Magic Leap有什麼區別?Magic Leap的本質原理是什麼?
在感知部分,其實Hololens和Magic Leap從技術方向上沒有太大的差異,都是空間感知定位技術。本文之後會著重介紹。Magic Leap與Hololens最大的不同應該來自顯示部分,Magic Leap是用光纖向視網膜直接投射整個數字光場(Digital Lightfield)產生所謂的Cinematic Reality(電影級的現實)。Hololens採用一個半透玻璃,從側面DLP投影顯示,虛擬物體是總是實的,與市場上Espon的眼鏡顯示器或Google Glass方案類似,是個2維顯示器,視角還不大,40度左右,沉浸感會打折扣。
本質的物理原理是:光線在自由空間中的傳播,是可以由4維光場唯一表示的。成像平面的每個像素中包含到這個像素所有方向的光的信息,對於成像平面來講,方向是二維的,所以光場是4維的。平時成像過程只是對四維光場進行了一個二維積分(每個像素上所有方向的光的信息都疊加到一個像素點上),傳統顯示器顯示這個2維的圖像,是有另2維方向信息損失的。而Magic Leap是向你的視網膜直接投射整個4維光場, 所以人們通過Magic Leap看到的物體和看真實的物體從數學上是沒有什麼區別的,是沒有信息損失的。理論上,使用Magic Leap的設備,你是無法區分虛擬物體和現實的物體的。
使用Magic Leap的設備,最明顯的區別於其他技術的效果是人眼可以直接選擇聚焦(主動選擇性聚焦)。比如我要看近的物體,近的物體就實,遠的就虛。注意:這不需要任何的人眼跟蹤技術,因為投射的光場還原了所有信息,所以使用者直接可以做到人眼看哪實哪,和真實物體一樣。舉個例子:在虛擬太陽系視頻的27秒左右(如下面這個gif圖),攝影機失焦了,然後又對上了,這個過程只發生在攝影機里,和Magic Leap的設備無關。換句話說,虛擬物體就在那,怎麼看是觀察者自己的事。這就是Magic Leap牛逼的地方,所以Magic Leap管自己的效果叫Cinematic Reality。
Q2. 主動選擇性聚焦有什麼好處?傳統的虛擬顯示技術中,為什麼你會頭暈?Magic Leap是怎麼解決這個問題的?
眾所周知,人類的眼睛感知深度主要是靠兩隻眼睛和被觀察物體做三角定位(雙目定位,triangulation cue)來感知被觀察物體的與觀察者的距離的。但三角定位並不是唯一的人類感知深度的線索,人腦還集成了另一個重要的深度感知線索:人眼對焦引起的物體銳度(虛實)變化(sharpness or focus cue) 。但傳統的雙目虛擬顯示技術(如Oculus Rift或Hololens)中的物體是沒有虛實的。舉個例子,如下圖,當你看到遠處的城堡的時候,近處的虛擬的貓就應該虛了,但傳統顯示技術中,貓還是實的,所以你的大腦就會引起錯亂,以為貓是很遠的很大的一個物體。但是這和你的雙目定位的結果又不一致,經過幾百萬年進化的大腦程序一會兒以為貓在近處,一會兒以為貓在遠處,來來回回你大腦就要燒了,於是你要吐了。而Magic Leap投影了整個光場,所以你可以主動選擇性聚焦,這個虛擬的貓就放在了近處,你看它的時候就是實的,你看城堡的時候,它就是虛的,和真實情況一樣,所以你不會暈。演講中Gary調侃對於Jean-Yves這種帶10分鍾Oculus就吐的傢伙來說,現在他一天帶16個小時Magic Leap都不會暈。
補充:有人問為什麼網上說虛擬現實頭暈是因為幀率不夠原因?
幀率和延時雖然是目前的主要問題,但都不是太大的問題,也不是導致暈得決定性因素。這些問題用更快的顯卡,好的IMU和好的屏幕,還有頭部動作預測演算法都能很好解決。我們要關心一些本質的暈眩問題。
這里要說到虛擬現實和增強現實的不同。
虛擬現實中,使用者是看不到現實世界的,頭暈往往是因為人類感知重力和加速度的內耳半規管感受到的運動和視覺看到的運動不匹配導致的。所以虛擬現實的游戲,往往會有暈車想吐的感覺。這個問題的解決不是靠單一設備可以搞定的,如果使用者的確坐在原定不動,如果圖像在高速移動,什麼裝置能騙過你的內耳半規管呢?一些市場上的方案,比如Omni VR,或者HTC Vive這樣的帶Tracking的VR系統讓你實際行走才解決這個不匹配的問題,但這類系統是受場地限制的。不過THE VOID的應用就很好的利用了VR的局限,不一定要跑跳,可以用很小的空間做很大的場景,讓你以為你在一個大場景里就好了。現在大部分虛擬現實的體驗或全景電影都會以比較慢得速度移動視角,否則你就吐了。
但是Magic Leap是AR增強現實,因為本來就看的到現實世界,所以不存在這個內耳半規管感知不匹配的問題。對於AR來講,主要挑戰是在解決眼前投影的物體和現實物體的銳度變化的問題。所以Magic Leap給出的解決方案是很好地解決這個問題的。但都是理論上的,至於實際工程能力怎麼樣就靠時間來證明了。
Q3. 為什麼要有頭戴式顯示器?為什麼不能裸眼全息?Magic Leap是怎麼實現的?
人類希望能憑空看到一個虛擬物體,已經想了幾百年了。各種科幻電影里也出現了很多在空氣中的全息影像。
但其實想想本質就知道,這事從物理上很難實現:純空氣中沒有可以反射或折射光的介質。顯示東西最重要的是介質。很多微信上的瘋傳,以為Magic Leap不需要眼鏡,我估計是翻譯錯誤導致的,視頻中寫了Shot directly through Magic Leap tech.,很多文章錯誤的翻譯成「直接看到」或「裸眼全息",其實視頻是相機透過Magic Leap的技術拍的。
目前全息基本還停留在全息膠片的時代(如下圖,我在光場研討會上看到的這個全息膠片的小佛像),或者初音未來演唱會那種用投影陣列向特殊玻璃(只顯示某一特定角度的圖像,而忽略其他角度的光線)做的偽全息。
Magic Leap想實現的是把整個世界變成你的桌面這樣的願景。所以與其在世界各個地方造初音未來那樣的3D全息透明屏做介質或弄個全息膠片,還不如直接從人眼入手,直接在眼前投入整個光場更容易。其實Nvidia也在做這種光場眼鏡。
Nvidia採用的方法是在一個二維顯示器前加上一個微鏡頭陣列Microlens array來生成4維光場。相當於把2維的像素映射成4維,自然解析度不會高,所以這類光場顯示器或相機(Lytro)的解析度都不會高。本人親測,效果基本就是在看馬賽克畫風的圖案。
而Magic Leap採用完全不同的一個方法實現光場顯示,它採用光纖投影。不過,Magic Leap用的光纖投影的方式也不是什麼新東西。在Magic Leap做光纖投影顯示(Fiber optic projector)的人是Brian Schowengerdt,他的導師是來自華盛頓大學的教授Eric Seibel,致力於做超高解析度光纖內窺鏡8年了。簡單原理就是光纖束在一個1mm直徑管道內高速旋轉,改變旋轉的方向,然後就可以掃描一個較大的范圍。Magic Leap的創始人比較聰明的地方,是找到這些做高解析度光纖掃描儀的,由於光的可逆性,倒過來就能做一個高解析度投影儀。如圖,他們6年前的論文,1mm寬9mm長的光纖就能投射幾寸大的高清蝴蝶圖像。現在的技術估計早就超過那個時候了。
而這樣的光纖高解析度投影儀還不能還原光場,需要在光纖的另一端放上一個微鏡頭陣列microlens array,來生成4維光場。你會疑問這不就和Nvidia的方法一樣了么?不,因為光纖束是掃描性的旋轉,這個microlens array不用做得很密很大,只要顯示掃描到的區域就好了。相當與把大量數據在時間軸上分布開了,和通訊中的分時一樣,因為人眼很難分辨100幀上的變化,只要掃描幀率夠高,人眼就分辨不出顯示器是否旋轉顯示的。所以Magic Leap的設備可以很小,解析度可以很高。
他本人也來Stanford給過一個Talk,Near-to-Eye Volumetric 3D Displays using Scanned Light。這個Talk講的應該就是Magic Leap早期的原型。(相關內容可參考: Fiber Scanned Displays)
二、感知部分
Q4. 首先為什麼增強現實要有感知部分?
是因為設備需要知道自己在現實世界的位置(定位),和現實世界的三維結構(地圖構建),才能夠在顯示器中的正確位置擺放上虛擬物體。舉個最近的Magic Leap Demo視頻的例子,比如桌子上有一個虛擬的太陽系,設備佩戴者的頭移動得時候,太陽系還呆在原地,這就需要設備實時的知道觀看者視角的精確位置和方向,才能反算出應該在什麼位置顯示圖像。同時,可以看到桌面上還有太陽的反光,這就要做到設備知道桌子的三維結構和表面信息,才能正確的投射一個疊加影像在桌子的影像層上。難點是如何做到整個感知部分的實時計算,才能讓設備穿戴者感覺不到延時。如果定位有延時,佩戴者會產生暈眩,並且虛擬物體在屏幕上漂移會顯得非常的虛假,所謂Magic Leap宣稱的電影級的真實(Cinematic Reality)就沒有意義了。
三維感知部分並不是什麼新東西,計算機視覺或機器人學中的SLAM(Simultaneous Localization And Mapping,即時定位與地圖構建)就是做這個的,已經有30年的歷史了。設備通過各種感測器(激光雷達,光學攝像頭,深度攝像頭,慣性感測器)的融合將得出設備自己在三位空間中的精確位置,同時又能將周圍的三位空間實時重建。
最近SLAM技術尤其火爆,去年到今年兩年時間內巨頭們和風投收購和布局了超級多做空間定位技術的公司。因為目前最牛逼的3大科技技術趨勢:無人車,虛擬現實,無人機,他們都離不開空間定位。SLAM是完成這些偉大項目基礎中的基礎。我也研究SLAM技術,所以接觸的比較多,為了方便大家了解這個領域,這里簡單提幾個SLAM界最近的大事件和人物:
1、(無人車)Stanford的機器人教授Sebastian Thrun是現代SLAM技術的開創者,自從贏了DARPA Grand Challenge的無人車大賽後,去了Google造無人車了。SLAM學術圈的大部分研究派系都是Sebastian徒子徒孫。
2、(無人車)Uber在今年拿下了卡耐基梅隆CMU的NREC(國家機器人工程研發中心),合作成立高等技術研發中心ATC。這些原來做火星車的定位技術的研究人員都去Uber ATC做無人車了。
3、(虛擬現實)最近Surreal Vision被Oculus Rift收購,其中創始人Richard Newcombe是大名鼎鼎的DTAM,KinectFusion(HoloLens的核心技術)的發明人。Oculus Rift還在去年收購了13th Labs(在手機上做SLAM的公司)。
4、(虛擬現實)Google Project Tango 今年發布世界上第一台到手就用的商業化SLAM功能的平板。Apple五月收購Metaio AR,Metaio AR 的 SLAM 很早就用在了AR的app上了。Intel 發布Real Sense,一個可以做SLAM的深度攝像頭,在CES上Demo了無人機自動壁障功能和自動巡線功能。
5、(無人機)由原來做Google X Project Wing 無人機的創始人MIT機器人大牛Nicholas Roy 的學生Adam Bry創辦的Skydio,得到A16z的兩千萬估值的投資,挖來了Georgia Tech的SLAM大牛教授Frank Dellaert 做他們的首席科學家。(相關內容:http://www.cc.gatech.e/~dellaert/FrankDellaert/Frank_Dellaert/Frank_Dellaert.html)
SLAM作為一種基礎技術,其實全世界做SLAM或感測器融合做得好的大牛可能不會多於100人,並且大都互相認識。這么多大公司搶這么點人,競爭激烈程度可想而知,所以Magic Leap作為一個創業公司一定要融個大資,才能和大公司搶人才資源。
Q5. Magic Leap的感知部分的技術是怎麼樣的?
這張照片是Gary教授在Magic Leap Stanford 招聘會中展示了Magic Leap在感知部分的技術架構和技術路線。可以看到以Calibration為中心,展開成了4支不同的計算機視覺技術棧。
1、從圖上看,整個Magic Leap感知部分的核心步驟是Calibration(圖像或感測器校準),因為像Magic Leap或Hololens這類主動定位的設備,在設備上有各種用於定位的攝像頭和感測器, 攝像頭的參數和攝像頭之間關系參數的校準是開始一切工作的第一步。這步如果攝像頭和感測器參數都不準,後面的定位都是無稽之談。從事過計算機視覺技術的都知道,傳統的校驗部分相當花時間,需要用攝像頭拍攝Chess Board,一遍一遍的收集校驗用的數據。但Magic Leap的Gary,他們發明了一種新的Calibration方法,直接用一個形狀奇特的結構體做校正器,攝像頭看一遍就完成了校正,極為迅速。這個部分現場不讓拍照。
2、有了Calibration部分後,開始最重要的三維感知與定位部分(左下角的技術棧),分為4步。
2.1 首先是Planar Surface Tracking(平面表面跟蹤)。大家可以在虛擬太陽系的Demo中看到虛擬太陽在桌子上有反光,且這個反光會隨著設備佩戴者的移動而改變位置,就像是太陽真的懸在空中發出光源,在桌子表面反射產生的。這就要求設備實時地知道桌子的表面在哪裡,並且算出虛擬太陽與平面的關系,才能將太陽的反光的位置算出來,疊在設備佩戴者眼鏡相應的位子上,並且深度信息也是正確的。難點在平面檢測的實時性和給出平面位置的平滑性(否則反光會有跳變)從Demo中可以看出Magic Leap在這步上完成得很好。
2.2 然後是Sparse SLAM(稀疏SLAM);Gary在Info Session上展示了他們實時的三維重構與定位演算法。為了演算法的實時性,他們先實現了高速的稀疏或半稀疏的三維定位演算法。從效果上看,和目前開源的LSD演算法差不了太多。
2.3 接著是Sensors; Vision and IMU(視覺和慣性感測器融合)。
導彈一般是用純慣性感測器做主動定位,但同樣的方法不能用於民用級的低精度慣性感測器,二次積分後一定會漂移。而光靠視覺做主動定位,視覺部分的處理速度不高,且容易被遮檔,定位魯棒性不高。將視覺和慣性感測器融合是最近幾年非常流行的做法。
舉例:
Google Tango在這方面就是做IMU和深度攝像頭的融合,做的很好;大疆的無人機Phantom 3或Inspire 1將光流單目相機和無人機內的慣性感測器融合,在無GPS的情況下,就能達到非常驚人的穩定懸停;Hololens可以說在SLAM方面是做得相當好,專門定製了一個晶元做SLAM,演算法據說一脈相承了KinectFusion的核心,親自測試感覺定位效果很贊(我可以面對白色無特徵的牆壁站和跳,但回到場中心後定位還是很准確的,一點都不飄。)
2.4 最後是3D Mapping and Dense SLAM(3D地圖重建)。下圖展示了Magic Leap山景城辦公室的3D地圖重建:僅僅是帶著設備走了一圈,就還原了整個辦公室的3D地圖,並且有很精緻的貼圖。書架上的書都能重建的不變形。
因為AR的交互是全新的領域,為了讓人能夠順利地和虛擬世界交互,基於機器視覺的識別和跟蹤演算法成了重中之重。全新人機交互體驗部分需要大量的技術儲備做支持。
接下來的三個分支,Gary沒有細講,但是可以看出他們的布局。我就隨便加點註解,幫助大家理解。
3.1 Crowdsourcing眾包。用於收集數據,用於之後的機器學習工作,要構建一個合理的反饋學習機制,動態的增量式的收集數據。
3.2 Machine Learning & Deep Learning機器學習與深度學習。需要搭建機器學習演算法架構,用於之後的識別演算法的生產。
3.3 Scenic Object Recognition場景物體識別。識別場景中的物體,分辨物體的種類,和特徵,用於做出更好的交互。比如你看到一個小狗的時候,會識別出來,然後系統可以把狗狗p成個狗型怪獸,你就可以直接打怪了。
3.4 Behavior Recognition行為識別 。識別場景中的人或物的行為,比如跑還是跳,走還是坐,可能用於更加動態的游戲交互。順便提一下,國內有家Stanford校友辦的叫格林深瞳的公司也在做這個方面的研究。
跟蹤方面
4.1 Gesture Recognition手勢識別。用於交互,其實每個AR/VR公司都在做這方面的技術儲備。
4.2 Object Tracking物體追蹤。這個技術非常重要,比如Magic Leap的手捧大象的Demo,至少你要知道你的手的三維位置信息,實時Tracking,才能把大象放到正確的位子。
4.3 3D Scanning三維掃描。能夠將現實物體,虛擬化。比如你拿起一個藝術品,通過三維掃描,遠處的用戶就能夠在虛擬世界分享把玩同樣的物體。
4.4 Human Tracking人體追蹤。比如:可以將現實中的每個人物,頭上可以加個血條,能力點之類。
5.1 Eye Tracking眼動跟蹤。Gary解釋說,雖然Magic Leap的呈像不需要眼動跟蹤,但因為要計算4維光場,Magic Leap的渲染計算量巨大。如果做了眼動跟蹤後,就可以減少3D引擎的物體渲染和場景渲染的壓力,是一個優化的絕佳策略。
5.2 Emotion Recognition情感識別。如果Magic Leap要做一個Her電影中描繪的人工智慧操作系統,識別主人得情感,可以做出貼心的情感陪護效果。
5.3 Biometrics生物識別。比如要識別現實場景中的人,在每個人頭上顯示個名字啥的。人臉識別是其中一種,國內有家清華姚班師兄弟們開得公司Face++就是干這個乾的最好的。
總結:簡單來講感知這個部分Magic Leap其實和很多其他的公司大同小異,雖然有了Gary的加盟,野心非常的寬廣,但這部分競爭非常激烈。
Q6: 就算Magic Leap已經搞定了感知和顯示,那麼接下來的困難是什麼?
1、計算設備與計算量
Magic Leap要計算4維光場,計算量驚人。不知道Magic Leap現在是怎麼解決的。如果Nvidia不給造牛逼的移動顯卡怎麼辦?難道自己造專用電路?背著4塊泰坦X上路可不是鬧著玩的。
下圖是,今年我參加SIGGraph 2015里,其中一個VR演示,每個人背著個大電腦包玩VR。10年後的人類看今天的人類追求VR會不會覺得很好笑,哈哈。
2、電池!電池!電池!所有電子設備的痛
3、一個操作系統
說實話,如果說「世界就是你的新桌面」是他們的願景,現在的確沒有什麼操作系統可以支持Magic Leap願景下的交互。他們必須自己發明輪子。
4、為虛擬物體交互體驗增加物理感受
為了能有觸感,現在交互手套,交互手柄都是 VR 界大熱的話題。從目前的專利上看,並沒有看出Magic Leap會有更高的見地。說不定某個Kickstarter最後能夠獨領風騷,Magic Leap再把他收了。
㈨ 科幻電影中出現的裸眼ar技術能實現嗎
可以,AR必須要有攝像裝置和顯示裝置,攝像裝置取景,然後由電腦分析畫面,在由顯示裝置顯示,比如常見的谷歌眼鏡,未來也許會小型化,但裝置還是必須的,人眼可以代替攝像裝置,安裝輔助晶元處理數據在傳給視覺神經。就可以完成,也許未來會有基因編程,無需移植任何裝置,通過修改細胞產生計算能力,相當於給大腦安裝了操作系統。