
歡迎關注“創(chuàng)事記”的微信訂閱號:sinachuangshiji
文/宋楠
洪泰高級經(jīng)理宋楠是一個才思敏捷、毒舌與段子齊飛的微胖屆投資人,可能是現(xiàn)實對他太過殘酷,他一直鐘情于虛擬現(xiàn)實、人工智能。
在洪泰的辦公室,你經(jīng)常能看到他頭戴各種設備,一邊挪動豐滿的身軀,一邊口吐各種驚嘆詞。
今天,我們推出宋楠的一篇文章,說的是MR(混合現(xiàn)實)。我們看完覺得可能是假宋楠寫的,因為這篇文章專業(yè)術語橫飛,句句有深意。
洪泰智造工場創(chuàng)始人喬會君看完后傲嬌地說:我覺得除了我,洪泰沒有人能不借助度娘看懂。
我們不信,所以發(fā)出來給你們看看。
本文4649字,看完需要5分鐘,完全看懂可能需要1小時-5天不等,出于公德心,我們先來幾條核心提示:
1、VR(虛擬現(xiàn)實)、AR(增強現(xiàn)實)殊途同歸,未來只有MR(混合現(xiàn)實)。
2、PC、手機之后,以語音交互為核心的HMD(頭戴式顯示器)將是下一代計算平臺。
3、微軟的頭戴顯示器Hololens是MR行業(yè)的標桿。
4、被斥為騙子,靠“特效視頻”融資的Magic Leap其實另一個MR核心選手。
5、二者共同定義了MR的3個核心能力:空間視覺、鏡片背后的光學系統(tǒng)、硬件及架構思路。
6、前兩名甩開了其他對手,但技術邊界并沒有看上去那么牢固。意識到核心能力是什么,不難趕上。
7、最后,這也是MR投資和創(chuàng)業(yè)領域的路線圖。
Magic Leap——MR市場中唯二的玩家
某種程度上,整個AR行業(yè)都因為Magic Leap炫酷的視頻而帶上光環(huán)。
所以,當人們知道這并不是真的來自AR技術,而是源于好萊塢式的特效,視頻的”出品方”Magic Leap備受爭議。它著名的中國投資者馬云也因此受到一些奚落。
2月份,Magic Leap2017年董事會召開,并且公布了一個“簡陋”的樣機照片后,塵埃落定了,野心家與陰謀論者中混雜著各種各樣“死道友不死貧道”的心情,簡單的把Magic Leap釘在了恥辱柱上。一言以蔽之:“盛名之下,其實難副”。
無可否認,Magic Leap真真假假的宣傳策略客觀上拉高了吃瓜群眾對它的預期,把自己架上神壇之后與其告訴大家“雖然我很好但是也沒有你想的那么!保蝗绺纱啾3殖聊瑦灺暟l(fā)財。
但必須要說,微軟(Hololens)以及Magic Leap是我看來MR市場中唯二的玩家,雖然可能二者目前來看微軟領先,但如果我們將MR看做下一代計算平臺的核心概念,怎么吹Magic Leap都不過分,畢竟他是一個“挑戰(zhàn)巨頭的初創(chuàng)公司”。
至于Meta、ODG、Lumus、Infinity AR等等等等的公司,在我看來至少目前他們在核心能力上還都有欠缺,暫且按下不提。
首先,Magic Leap到底在干啥?
先上兩張圖:


上圖是Magic Leap第一批被扒出來的專利圖之一,清晰地展示了其HMD(頭戴顯示器)的設計思路:為了減輕重量,把計算單元和電池都外置,眼鏡上只留下必要的傳感器以加強佩戴舒適度。
而下圖是剛剛流出的Magic Leap原型機“諜照”,也是印證了之前專利圖中的設計思路,所有的計算單元包括電源都是外置的,頭上的眼鏡只是做輸入輸出設備。
雖然巨大的開發(fā)板簡直無法直視,不過我們仍然能從開發(fā)板中獲得一些信息(以下信息有推測部分,不保證完全正確):
首先,從散熱器看,和NVIDIA JETSON TX1的散熱器一模一樣,以及沒有在圖片中找到其他處理器,大概率是用的Nvidia Tegra平臺。

Jetson TX1 開發(fā)板官方圖
其次,假設使用的是TX1,TX1是Nvidia針對機器學習推出的嵌入式系統(tǒng)平臺,處理器性能提升并不明顯,側面反映了Magic Leap設備目前通用計算的量不大,而含256個CUDA核心的GPU肯定是為了MR設備的高圖形運算需求而生的,但是帶來了另外的發(fā)熱以及功耗方面的困擾:
巨大的風扇和開發(fā)板直接用AC電源輸出,這塊峰值功率達到10W的開發(fā)板,不知未來小型化的前景如何,雖然一個“外置式”的計算模塊對重量要求可能會降低,但是“板磚”估計也不能被接受的。
技術總是在不斷衍進的。剛剛發(fā)布的Nitendo Switch就搭載了Nvidia最新一代的Tegra Parker處理器。不排除Magic Leap已經(jīng)跳過了TX1直接上Parker平臺,畢竟TX1硬傷太明顯,Nvidia并沒有在這一代平臺上發(fā)力,有可能集中精力在做下一代Parker平臺。


附上Parker與TX1、TK1 Spec對比
看上去是干活的,但是究竟干得怎么樣?
首先,這里要明確一個觀點:技術的邊界是趨同的(特別是做軟件、算法層面的公司)。在對真正前沿科技的探索上,同領域的頂級公司技術差距其實并不大(因為大家用的技術框架其實都很類似)。
舉個例子, 在圖像識別領域,每年ImageNet的比賽頂級team之間的差距并不大(標準實驗室環(huán)境下),每年的冠軍也是輪流換,真正有巨大提升的,是Hinton12年用深度學習來做圖像識別那一年,之后大家都換成了深度學習框架,競爭又變成了一個兩個百分點的競爭。
當然如果變成了復雜環(huán)境或者說真實環(huán)境,大家的技術體驗就更相似了:40%正確率和60%正確率,對于用戶來說都是一樣的:不準!
另外一個例子就是VR行業(yè):Oculus相對VIVE,起步早一些,但是實際能拿出的產(chǎn)品從體驗上來看區(qū)別不大,甚至PS VR雖然技術指標不如前兩者,實際上卻是出貨量最大也最受好評的VR平臺。
所以,如果我們把Hololens所定義的MR當做這個行業(yè)目前的標桿,躋身行業(yè)一線玩家行列,需要具備什么樣的條件呢?
首先是空間視覺能力,或者說是基于嵌入式平臺的SLAM(即時定位與地圖構建,或并發(fā)建圖與定位)。Hololens之所以帶來這么大的震撼,主要也是因為這是第一個公開銷售并集成了Inside-out追蹤技術的HMD系統(tǒng)(什么是Inside-out空間定位技術,簡單來說就是利用設備自身,而不依靠外部的傳感器等配件,實現(xiàn)虛擬場景里的空間定位,以及更多的人機交互)。
在這之前,所有HMD搭載的定位系統(tǒng)都是outside-in方案,即需要外置的攝像頭拍攝頭盔或者控制器的mark點來定位。從使用難度來講相去不可以道里計(用過VIVE的都懂)。

Inside-out技術簡示
其次,光有Inside-out本身是不足以支撐混合現(xiàn)實體驗的,還需要空間信息或者說深度信息的疊加,才能夠真正實現(xiàn)定位+空間重建來支撐完整的混合現(xiàn)實體驗。深度信息與SLAM的疊加從技術難度上來說并不高,但是目前鑒于大家連inside-out還沒做好,空間信息的疊加還需等待。
SLAM本身并不是一個新東西,國內也有相當多的團隊在做,比較突出的包括速感科技,Perceptin等等,但是目前都還是作為一個雙目空間攝像頭模塊存在,Ximmerse拿出了自己的inside-out方案,也是取了個巧,利用攝像頭拍攝手柄上的光點進行定位,還不能算是廣義上的inside-out方案。
國外目前在做空間視覺的創(chuàng)業(yè)公司包括Infinity AR,Occitipal等等,今年CES2017幾家公司也均有參展,Infinity AR的Demo是一個飛機在桌子上起落飛翔的動態(tài)演示,但是跑道與桌子的貼合包括整體影像的晃動都很劇烈,演示效果離Hololens的穩(wěn)定狀態(tài)還有比較大的差距。
相比之下Occitpal的演示則更令人印象深刻,整體體驗非常好,但我個人懷疑是針對特定的演示場景做了優(yōu)化,實際產(chǎn)品能達到什么樣的效果尚數(shù)未知。
大公司方面,Oculus去年宣布了自己的一體機Santa Cruz,承諾會有inside-out定位功能,Google Tango一直是移動SLAM的先行者,蘋果也收購了相當多AR相關的公司,據(jù)傳也在研究眼鏡產(chǎn)品,高通也已經(jīng)發(fā)布了自己的VR一體機產(chǎn)品,號稱有inside-out追蹤功能,其他公司包括ODG,Lumus,Meta等等,目前還都是在提供基于不同光學方案的AR眼鏡產(chǎn)品,由于不具有空間視覺功能,尚不能認定為MR產(chǎn)品。
第二點,就是要有好的AR光學方案,Hololens包括Magic Leap都是采用了全息波導衍射光柵的光學鏡片,而其他公司如ODG及Meta等則采用自由曲面、棱鏡或者幾者混合的光學方案。
顯示技術應當說在目前來看,技術迭代的路線整體是向光波導光學靠攏的,只有光波導才能做到真正像現(xiàn)在正常眼鏡一樣大小輕重的HMD產(chǎn)品。
但是目前光波導鏡片面臨量產(chǎn)難度大,成本高,F(xiàn)OV(field of view, 簡單來說,就是玩家游戲時的視野)不足的問題,相對來說自由曲面或者棱鏡的光學方案則門檻更低,相對供應鏈更成熟,顯示效果跟目前成熟的光波導鏡片來看也完全不差甚至猶有過之。
Meta用很笨拙的方案就做到了90度FOV,而今年CES Lumus展出的50度光波導鏡片方案已經(jīng)是目前最領先的光波導鏡片了,更不要說他巨大的頭部器件和發(fā)熱。

本人實測Lumus
第三點,就是一些硬件包括其背后體現(xiàn)的思路,具體應當說包含三點:四攝像頭SLAM,結構光以及HPU。
首先是四攝像頭,感興趣的同學大概已經(jīng)發(fā)現(xiàn)了一個奇怪的巧合:Oculus的一體機Santa Cruz也是采用了四攝像頭方案(不過Hololens的方案是左右各兩個,Santa Cruz的方案是上下各兩個)。
我猜Magic Leap也會采用四攝像頭的方案,主要是為了在保證mapping的angular resolution的基礎上,同時兼顧tracking的FOV,說白了,就是為了看得更準更寬,從而保證了定位和追蹤的穩(wěn)定性,這是雙目甚至單目解決不了的。
結構光:Hololens的深度信息均來自結構光攝像頭,包括手勢識別,但這里一個有意思的事情是,很多人做SLAM的時候也會結合結構光信息來做,但這在HMD上是無法應用的,因為結構光在做空間識別的時候,識別范圍較遠,是不能夠識別近距離的手的具體信息的,所以如果使用了結構光來做SLAM,實際上是無法同時應用手勢識別的。
在Hololens具體操作時,也是預先掃描了周邊環(huán)境的深度信息,然后才開始做手勢識別交互。
HPU是另一個被傳得神乎其神的東西,實際上是微軟定制的Cadence Tensilica的DSP,內含24個核心,主要用來處理跟視覺,手勢,環(huán)境感知相關的一切算法。
所以算力提升對于MR行業(yè)來說仍然是亟需解決的問題,想想Magic Leap開發(fā)板上巨大的散熱器~
所以總結來看,目前除了微軟,行業(yè)內的其他玩家都或多或少的缺乏MR產(chǎn)品的一部分核心能力,而Magic Leap,無論從其展示的思路還是靠譜的小道消息,是最靠近這個技術路線并且已經(jīng)有相當技術積累的公司。
所以,那些神視頻到底怎么回事?
首先,Magic Leap總共發(fā)布過4段視頻(辦公室機器人大戰(zhàn)、太陽系、A new morning以及星戰(zhàn))+2個動圖Demo(鯨魚以及手心小象)。
其中辦公室機器人大戰(zhàn)、鯨魚以及手心小象都是特效視頻,其余的均為“Shot directly from Magic Leap”。所以之前很多媒體報道中所謂“均為特效”是不實的,不過實拍的內容中細琢磨的話也有很多小tricks,下面詳細分析一下:


1.兩張截圖分別來自兩段視頻,但都非常清晰的顯示了一個問題:桌子可以非常完美的把R2D2的身體擋住,當機器人走到桌子旁邊或者鏡頭位置變化到有物體在前面“遮擋”圖像的時候,被遮擋的圖像就完美的不顯示了!這是怎么做到的呢?
我們知道眼鏡類的產(chǎn)品,鏡片是所有光線進入眼睛的最后一道門戶,理論上鏡片上的圖像是疊加在所有外在信息之上的,這種“被遮擋”的錯覺顯然是因為眼鏡根據(jù)深度信息發(fā)現(xiàn)圖像產(chǎn)生了“被遮擋”的關系,從而停止渲染那部分區(qū)域的圖像,讓自然光線透過鏡片,實現(xiàn)了類似“被遮擋”的效果。
道理都說得通,問題是這里的被遮擋關系展現(xiàn)的太完美了,不僅圖像穩(wěn)定清晰,被遮擋的邊緣也沒有絲毫誤差,這就很有意思了?梢詫Ρ纫幌翲ololens在使用環(huán)境下,雖然也能做到部分的“被遮擋”效果,但是會產(chǎn)生很頻繁的畫面抖動,因為并不確定被遮擋的邊緣以及面積到底有多少。
竊以為Magic Leap在這些演示視頻中,雖然確實是實時渲染而且是實拍的,但是肯定對場景做了預先的精細掃描和建模,才能夠達到這么好的效果。
這也是平時在看SLAM項目的時候的一大問題:演示視頻或者場景由于有事先特定的優(yōu)化,能夠實現(xiàn)比真實使用中好得多的效果,有的時候限于時間因素不能反復測試,經(jīng)常會被這樣的“小把戲”欺騙,等真的詳細DD的時候,又發(fā)現(xiàn)了這樣那樣技術上難以克服的問題。
2.關于太陽系的這一段視頻也是非常有趣的,展現(xiàn)了Magic Leap的“光場顯示”技術,即在不同的景深上可以成像。演示視頻中一會兒太陽很清晰,一會兒地球很清晰,是很明顯的光場顯示技術的應用。
這里又有一個很有趣的問題了,不是說好了用光波導的嗎?光場技術到底是什么情況?實際上Magic Leap確實是有很深的光場顯示包括光纖顯示技術的儲備,但是由于種種問題,離真正產(chǎn)品化路還非常遠,應該說這段視頻只是秀肌肉,短時間之內是不可能看到類似的產(chǎn)品面世的。
光場顯示其實國內有團隊在做,我也在中科院某所看過類似的Demo,整個光學系統(tǒng)就比目前的頭盔還大,還只能實現(xiàn)7個焦距上的光場顯示,完全不具備產(chǎn)品化價值(Magic Leap據(jù)說要好很多)。
而光纖顯示,大家從光纖的屬性上其實也能推測到,這么脆弱的介質,稍微用一用就會有變形,錯位等等的問題,產(chǎn)品化的路也很漫長。
3.關于其他的演示視頻
其實除了鯨魚那段演示視頻確實是太浮夸了之外(其實你想象所有人都戴著眼鏡但是P掉了就好),其余無論小象的demo還是機器人大戰(zhàn)的demo,都是在目前的技術環(huán)境下可以實現(xiàn)的,大家完全不必對技術這么悲觀,這段算勉強洗個地。
最后,最重要的是MR(混合現(xiàn)實)的未來
之所以說了這么久Magic Leap的故事,是因為MR讓我振奮。以下簡單說說我的觀點:
1.VR、AR殊途同歸,未來只有MR。
設想一下,VR一體機和AR眼鏡,最主要的區(qū)別是什么呢?其實就是一個是透明的,一個是不透明的。
目前來看VR擁有更大視角以及不透明的視野,而AR眼鏡視角小,但是能看到現(xiàn)實世界。無論VR還是AR的創(chuàng)業(yè)者,都很明白空間視覺的重要性,因為它本質上就是用戶體驗,更大的視角,更透明的世界,他們都想要。
另一方面來說,眼球追蹤,手勢識別,全景音效以及更好的人體工學也都是所有從業(yè)者共同追求的,未來會成為所有HMD產(chǎn)品的標配。而大視角、高分辨率也會是所有產(chǎn)品的一個共同追求。
這樣看來,透明或者不透明,其實就不是問題了,只要多做一個遮罩,甚至是鏡片上附一層可調透光度的膜,就可以解決這個問題。目前所有VR/AR從業(yè)者所努力的方向可以說是統(tǒng)一的,那就是VR與AR合二為一。
2.從實際技術演進來看,MR設備更容易成熟。
2016-2017年,VR行業(yè)在國內可以說從天堂到地獄,從16年初的萬人空巷到17年初的慘慘戚戚,客觀上反映了VR設備在普及上遇到的問題,其中最最主要的問題就是眩暈感遲遲無法解決,用戶的平均使用時間基本上在15分鐘左右,根本無法支撐真正優(yōu)質內容的產(chǎn)生,從而導致了惡性循環(huán)。
在我看來,眩暈感或許是5年內VR設備無法邁過的門檻,除非用類似萬向跑步機的外設,否則簡單的“房間級”追蹤,還是無法完美解決用戶的暈動癥問題。藥物可能是解決這個問題的最佳方案。而MR設備則不同,能看到外面的場景包括相對小很多的FOV,都會讓用戶在實際使用中更容易接受。
3.PC、手機之后,下一代計算平臺將會是以語音交互為核心的HMD產(chǎn)品。
如果你留心看CES 2017,一個很大的改變就是AR作為一個單獨的品類開始參展,ODG,Lumus,Vuzix,Sony,Infinity AR,Occitipal等等,成為了CES 2017少有的亮點。今年VR參展的數(shù)量很少,不過用VR進行展示的企業(yè)很多,VR已經(jīng)變成一個Feature。
無論是Oculus開始招募AR團隊,還是蘋果要發(fā)布自己的AR產(chǎn)品,華為招募了前Oculus大牛做AR/VR/MR技術負責人等等,都清晰的說明了一個信息:巨頭正在跑步入場。
正如之前所提過的,技術的邊界是趨同的,當巨頭們看到Hololens這樣的產(chǎn)品是可實現(xiàn)的之后,相關的創(chuàng)新包括探索也會層出不窮,相關的技術人才、技術儲備也會導致整個市場的百花齊放,我們正處在快速迭代的時代,科技水平的發(fā)展真的要用“日新月異”來形容。
以語音交互為核心的HMD作為下一代計算平臺出現(xiàn)在尋常百姓家的日子,已經(jīng)越來越近了。