全部評論: 0條
訪談大師:童欣
童欣,1999年畢業(yè)直接加入微軟亞洲研究院,目前擔任微軟亞洲研究院網(wǎng)絡(luò)圖形組首席研究員,主要研究方向為計算機圖形學(xué)和計算機視覺。
童欣于研究院的自述:幾天前我得到通知要在這里做一個報告,我非常焦慮和緊張。上次這么緊張還是第一次在SIGGRAPH報告論文的時候。我想了很久,決定了這個題目,“網(wǎng)絡(luò)圖形:從交互到智能”,我想把過去幾年來的一些想法作一個思想?yún)R報,請各位院友指正、批評、提出建議。
事情要從15年前說起,2001年的時候,Harry(沈向洋)和百寧(郭百寧)決定要成立一個新的圖形組,那么就需要有一個很酷的組名,于是他們決定叫做“互聯(lián)網(wǎng)圖形組”。名字起得很好,問題也馬上來了:基本上每個見到我們的人都問什么是 Internet Graphics。為了回答這個問題,在2001年的時候我們集中全組的力量做了第一個項目,Game Download & Play,這項目我們想把游戲圖形的數(shù)據(jù)、幾何、紋理做一些壓縮,通過互聯(lián)網(wǎng)下載的時候,大家就不用等那么長的下載時間了,很快把一部分數(shù)據(jù)下載到本地之后,大家就可以開始玩游戲了。這項目可以說非常成功。這之后我們順利地開始做 SIGGRAPH……轉(zhuǎn)眼到了2010年,百寧把接力棒交給我,讓我慢慢開始負責整個圖形組,那么我要怎樣激勵大家、我們組里應(yīng)該有什么樣的愿景。我也開始思考這些問題,重新在問自己到底什么是互聯(lián)網(wǎng)圖形?
如果我們看看周圍,可以看到很多成功的例子?;ヂ?lián)網(wǎng)加文字,有網(wǎng)絡(luò)文學(xué)、微博,維基百科。加圖片就有美圖秀秀、Instgram等等。互聯(lián)網(wǎng)加視頻也很好,有Youtube、愛奇藝等很多國內(nèi)網(wǎng)站,還有網(wǎng)絡(luò)直播,還有了網(wǎng)紅?;仡^再看看Graphics,卻好像什么都沒發(fā)生,就這樣過了十年,那么到底出了什么問題呢?——有傳言說,如果你站在風口,就算你是一頭豬也能飛起來??墒俏疫@么瘦的一個人,站了這么久,怎么還沒飛起來,這到底出了什么問題?
我做了一些粗淺的研究,認真想了一想。我發(fā)現(xiàn),飛起來這件事,不是什么都可以,要滿足兩個條件:第一,要Everyone,就是內(nèi)容最好是每一個人都能產(chǎn)生、都能創(chuàng)造,那么有了網(wǎng)絡(luò)大家就可以互相交流,你的內(nèi)容就會有海量增長。第二,要Everywhere,隨著移動平臺的發(fā)展,如果你這個內(nèi)容的產(chǎn)生和消費能互聯(lián)到每一個平臺上,讓大家在任何地方都能生產(chǎn)消費,這時候你就真的飛起來了。
那么我們看看圖形學(xué)到底是個什么狀況?答案很悲慘:在Everyone方面,三維內(nèi)容的生產(chǎn),對普通用戶而言還是非常難的任務(wù)。最左邊大家可以看到傳統(tǒng)的造型動畫軟件,界面很復(fù)雜,即使是藝術(shù)家也需要好幾年的學(xué)習(xí)才能做好一個模型。另一方面,雖然我們有一些設(shè)備幫助大家來做三維內(nèi)容的捕捉,比如三維掃描儀、光穹、動捕等等,但這些設(shè)備都非常昂貴,每個要幾百萬,還需要專門的場地和專業(yè)的操作,普通用戶享受不到。
我們再看看Everywhere,發(fā)展了這么多年,所有三維圖形的內(nèi)容都是通過一個二維的屏幕來傳遞給大家的——某種意義上來講,我們的內(nèi)容和2D的視頻就沒有太大的區(qū)別。我們的交互就不用提了,我們還得通過鼠標、鍵盤或者gamepad進行交互,這些交互跟我們在真實三維世界中所做的交互是非常不同的。由于這些限制,大家就會發(fā)現(xiàn),到現(xiàn)在為止,圖形的生產(chǎn)和消費基本和互聯(lián)網(wǎng)無關(guān),基本的方式還是少數(shù)的藝術(shù)家,他們組織在一起,經(jīng)過艱苦的奮斗,做了一些游戲、電影,然后把東西通過市場分發(fā)給成千上萬的消費者進行消費。一切還是停留在傳統(tǒng)的模式。
基于這樣的想法,我們就提出了我們互聯(lián)網(wǎng)圖形組的愿景,這就是,我們希望做一些圖形學(xué)的工具和系統(tǒng),能幫助每個人很方便地產(chǎn)生、觀看和分享一些三維內(nèi)容。同時,我們希望能在自然世界和虛擬世界間提供更自然的界面和交互的方式,另外我們還想在可視的和不可視的抽象信息之間提供一些自然的界面,把抽象的信息變成可視的展現(xiàn)出來。
過去五年我們?yōu)榱诉@一愿景做了很多不同方面的研究,慢慢意識到也許基于智能或者數(shù)據(jù)的方法是個很好的解決方案。原因有下面幾個:第一,我們已經(jīng)有了一些昂貴的設(shè)備,這些設(shè)備幫助我們捕捉了大量高質(zhì)量的數(shù)據(jù)。第二,我們也有了比較便宜的設(shè)備,這些設(shè)備可以為我們的系統(tǒng)提供一個初始的輸入,不用從零開始了。最后,是一些關(guān)于機器學(xué)習(xí)方面的技術(shù)進展可以讓我們把這些技術(shù)用到圖形學(xué)的問題里。
那么也許一個比較好的解決方案是通過低價普及的設(shè)備,比如普通相機和深度相機,加上智能的算法,再有些時候需要一些簡單的用戶輸入,來方便地產(chǎn)生三維的內(nèi)容。關(guān)于智能算法,我們希望它能做兩件事,一是希望能夠利用到所有三維數(shù)據(jù)的本征特性,用這些幫助我們產(chǎn)生內(nèi)容; 二是可以用機器學(xué)習(xí)來進行端到端的學(xué)習(xí),在輸入和輸出之間直接建立一些聯(lián)系。
下面我用我們組研究的一個研究課題三維物體的數(shù)字化來進一步說明舉例。
三維物體數(shù)字化的目標是希望將一個真實世界的三維物體,完美地傳遞掃描進一個虛擬世界。為做到這一點,我們不僅僅要捕捉三維物體的幾何形狀,還要重現(xiàn)它的材質(zhì)信息。注意,有了幾何信息雖然可以知道物體形狀,卻不知道這個物體是什么,只有有了物體材質(zhì)表面反射屬性以后,我們才能在三維世界中真正栩栩如生地體現(xiàn)出來,大家就會的清楚知道這是真實世界的一個啤酒瓶,上面有一個紙標簽,標簽上有燙金字……我想我不需要再說明這樣一個工具對VR/AR內(nèi)容的產(chǎn)生、或者對虛擬購物等應(yīng)用是多么重要。
那么我們看看現(xiàn)在的解決方案是什么?;旧衔覀兛梢园l(fā)現(xiàn)這流水線還是非常長的,首先用設(shè)備掃描三維幾何形狀,但是掃描得到的這些幾何形狀在大部分情況下非常糟糕,需要大量人工交互工作來去除噪聲、平滑三維模型。材質(zhì)捕捉就更麻煩了,我們需要把物體挪到專用的捕捉室,放在專用的設(shè)備上,捕捉物體在各種光照、各種視點下的外觀,有了這些才能采集出真正的物體形狀和材質(zhì)。大家可以發(fā)現(xiàn)這樣一個基本的任務(wù)還是有很多障礙,首先去噪方面需要很多手工交互工作,其次材質(zhì)捕捉設(shè)備很昂貴,另外這個流水線很長,需要分開的步驟去先捕捉幾何,再用另外的設(shè)備捕捉材質(zhì)。
那么我們看看用一些智能的算法能幫我們做什么事情:第一個要介紹給大家的是我們?nèi)ツ暄邪l(fā)出來的一個數(shù)據(jù)驅(qū)動的模型去噪算法。這里要做的是希望有個自動的算法,幫我們除去掃描模型上的噪音,同時保留模型上面所有的幾何細節(jié),并且算法對不同設(shè)備掃描出來的模型都能很好的處理。我們的算法通過收集帶噪聲的掃描模型和對應(yīng)的基本沒有噪聲的高質(zhì)量模型,先去學(xué)習(xí)訓(xùn)練這些幾何之間的對應(yīng)關(guān)系?;谶@個對應(yīng)關(guān)系,我們就可以將一個帶有噪聲的掃描模型直接對應(yīng)生成它的沒有噪聲的模型,從而實現(xiàn)去噪的效果。這是我們組的劉洋研究員帶領(lǐng)實習(xí)生完成的工作。
我們這個算法在訓(xùn)練好了以后,用戶在用的時候是全自動的。更了不起的是,我們的算法在我們所有的測試模型上去噪效果都超過了所有目前已有的模型去噪算法。同時我們的算法還比所有已知算法都要快。我們很快會把我們的算法源代碼和數(shù)據(jù)公布在網(wǎng)上,希望其他研究人員都可以在基礎(chǔ)上繼續(xù)研究,同時很多用戶也可以直接使用我們的算法。
下面我們來看一些實驗結(jié)果。左邊是輸入一個掃描模型,有很多的噪聲,右邊是Ground Truth,右邊第二個是我們算法得到的結(jié)果。
這是另一個例子,掃描模型的噪音非常大,以前的算法只能除掉一些噪音,或者會抹去很多模型上的集合細節(jié)。我們的算法可以比較好地去掉模型上的噪聲,同時比較好地保留它的幾何細節(jié)。
我們再看看材質(zhì)捕捉方面,剛才我們說材質(zhì)捕捉設(shè)備很昂貴,捕捉過程很麻煩。有什么更好的做法來做呢?我們在兩年前做了世界上第一個不需要任何特殊設(shè)備和光照,只從自然未知光照下拍攝的物體視頻出發(fā)進行材質(zhì)捕捉的算法。這是我們團隊的董悅研究員帶領(lǐng)實習(xí)生完成的工作。輸入就是大家看到的左邊的視頻序列,右邊是輸出的材質(zhì)捕捉的結(jié)果,最后我們把它放在一個新的光照下,物體可以栩栩如生地再現(xiàn)出來。
這個算法的關(guān)鍵是我們要從視頻中同時估計物體的光照和材質(zhì)屬性。我們發(fā)現(xiàn)自然環(huán)境中的光照和材質(zhì)本身具有不同的屬性,可以用這些屬性很巧妙地從觀察的數(shù)據(jù)最終把二者分分離開來。
這里顯示了我們算法所恢復(fù)的物體的材質(zhì)效果,不論是啤酒瓶上印刷的標簽,還是光滑的瓷器,還是帶有鐵銹的金屬,我們的算法都能自動地從一些視頻序列中把高質(zhì)量的材質(zhì)重構(gòu)出來。
有了這些工作,上面的流水線變得簡單自動了很多,但還是要經(jīng)過兩步。有沒有可能一步就把所有事情搞定?去年我們在這方面做了一些研究,做了世界上第一個從視頻中同時恢復(fù)物體的幾何形狀和表面材質(zhì)的算法。這個方法只是用了視頻而不再需要任何的深度相機捕捉的數(shù)據(jù)。同樣,我們的算法不需要知道光照信息。左邊是我們算法輸入的視頻,右邊是捕捉的物體和材質(zhì)在新的光照環(huán)境下繪制的結(jié)果。
這是我們捕捉到的幾何和材質(zhì)和真實照片的對比,你可以看到所有的幾何細節(jié)、表面反光和材質(zhì)屬性都被很好的重建出來了。在不同的光照下看,所有物體都像真實物體一樣得到真實再現(xiàn)。
基于這一結(jié)果,我們把做的結(jié)果放到HoloLens,并和我們周圍的真實光照結(jié)合在一起,可以生成非常真實的效果。
剛才我們以物體的數(shù)字化為例說明了如何采用智能的算法幫助我們簡化建模過程,方便普通用戶捕捉三維內(nèi)容??偨Y(jié)一下,在過去幾年中我們在智能算法方面做了很多努力,我們逐漸認識到,智能算法也許是能夠?qū)崿F(xiàn)普通用戶產(chǎn)生三維內(nèi)容的一個最終解決方案 。
最后,我也想分享一下我在這個過程中所得到的經(jīng)驗或者教訓(xùn):我總結(jié)為三個D。首先是Open-minded。我們要積極地學(xué)習(xí)借鑒其他領(lǐng)域的方法算法,比如我剛才講的去噪算法,就是從孫劍和周昆他們做人臉跟蹤那里學(xué)習(xí)的算法。而我們所做的材質(zhì)捕捉的算法,是從視覺里面的圖像防抖算法里得到的啟發(fā)?,F(xiàn)在我們也在學(xué)習(xí)和深度學(xué)習(xí)相關(guān)的東西。第二是 Concentrated。第一條就像吸星大法,把別人的東西都吸過來了,但還不夠,還要易筋經(jīng),把東西化成自己的,要知道自己拿到這個工具是要解決自己的問題的,聚焦于自己的問題,把那些東西為你所用。最后是End to end,我們并不想發(fā)了一篇論文然后研究就結(jié)束了,論文更多的是一個交流表達的手段,關(guān)鍵是把問題真正給解決掉,最后給用戶提供一個真正的端到端的解決方案。
展望未來,可以說我們才剛剛起步,前面還有很長的路要走。這也許是個壞消息,但對我來說這其實也是好消息。因為這意味著前面還有很多不確定性、很多挑戰(zhàn)。作為一個研究人員來說,這些困難、挑戰(zhàn)也正是我們最終的樂趣所在,雖千萬人,吾往矣。
謝謝大家。
以上內(nèi)容整合于網(wǎng)上資料。
店鋪:鑫鑫創(chuàng)意3D打印工作室售價:888
店鋪:誰跌撞了年少售價:15.00
店鋪:購任性售價:59.00