2008-01-24

史丹佛科學家將 2D 影像變成 3D 模型

Stanford site advances science of turning 2-D images into 3-D models
http://www.physorg.com/news120327168.html

January 23, 2008

一位藝術家可能會耗費數週的時間在風景繪畫的深度、縮放比率與透視等問題上,一旦它完成後,所留下來的 2D 影像就只有固定的觀點(point of view)。但是這個由史丹佛電腦科學家所開發的 Make3d 演算法,能利用任何 2D 影像,並創造出一個包含其內容的、 3D 的「圍繞飛行(fly around)」模型,讓觀看者能存取此一景象的深度與各種範圍的觀點。

"此演算法利用各種視覺線索,人類用以評估某一景象的 3D 外觀(aspects)," Ashutosh Saxena 說,電腦科學博士生,他與 Andrew Ng,電腦科學助教授開發這個 Make3d 網站。"如果我們看一處草地,當它變得更遠時,我們能看見材質以某種特殊方式改變。"

此演算法在 http://make3d.stanford.edu/上面運行(譯註:可以到 See in 3-D 觀看範例,載入後可用鍵盤上的 +、- 號放大縮小,方向鍵移動場景,VRML 的 .wml 檔可以找 CosmoPlayer 來播放。照片可以直接上傳,也可從 Flickr 直接拖過來放。除了自行上傳影像來玩玩看之外,它會以 e-mail 通知已經算好了,也可以看看不同的 render 結果,甚至是修補第一次 render 不正確的地方。)。

研究者表示,這些能從 2D 影像提取出 3D 模型的應用,包括可用來增強線上不動產網站的照片、快速建立電玩環境以及當行動式機器人導航通過空間性世界時,能改善其視覺與靈敏度。

從靜態影像提取 3D 資訊是種新興技術。在過去,某些研究者得透過分析同一場景的多張影像才能夠合成出 3D 模型。其他人,包括 Ng 與 Saxena 在 2005 年,則已開發出演算法,能夠從單一影像推斷其深度。這些演算法藉由簡單線索,例如影像當中代表牆或樹的垂直線段,來假定那些東西必定是地面或天空。不過 Make3d 藉由拋棄有限制的假設,並支持一種新的、對於每張影像更深入的分析,以及強大的人工智慧技術稱為「機器學習(machine learning)」,創造出精確且平滑的模型,約是其他競爭方法的二倍,Ng 說。


復原第三維度

為了「教導」演算法在 2D 影像當中的深度、方向與位置,研究者餵入校園景色的靜態影像以及來自於相同景象、利用雷射掃描器收集而成的 3D 資料。演算法將二組資料關連起來,最終獲得一個與遠、近相關之趨勢及模式的良好概念。例如,它學到沿著邊界的突然改變與某一物體正擋住另一個物體密切相關,而它也知道遠離的東西比接近當中的東西,更加朦朧與帶點藍色(bluish)。

為了做出這些判斷,此演算法將影像分解成係為的平面,稱為「超像素(superpixels)」,那位於影像當中,並具有相當一致的色彩、亮度與其他屬性。藉由尋找某個超像素以及其鄰近超像素、分析如材質漸變(gradations)這樣的改變,此演算法能夠判斷它離觀看者有多遠以及方其在空間當中的方向為何。不像某些先前的演算法,史丹佛的能以任何角度解釋平面,不只有水平或垂直。這允許它為多面向的場景創造模型,例如樹幹彎曲的樹枝或是山脈的斜坡。

一篇由 Ng、Saxena 與學生 Min Sun 所完成的報告,在 2007 年 10 月於里約熱內盧所舉行的 International Conference on Computer Vision 當中贏得 3-D 識別與再現研討會的最佳論文獎。

雖然此技術的運作到目前為止較它者為佳,Ng 說,不過它還不夠完美。此軟體在風景與佈景上運作最佳,單一物體的近照反而不理想。此外,他與 Saxena 希望藉由引介物件識別(object recognition)來改善它。這個構想是,如果軟體能識別某張照片當中的人類外型,它就能夠基於人在照片中的大小,進行更精確的距離判斷。

對許多全景圖(panoramic scenes)來說,尚未有替代者存在。不過當平面的照片變成 3D 時,觀看者能感覺一些遠、近。

※ 相關報導:

視覺研究:為何人們在群眾中不會引人注目?
利用百萬張相片還原場景
Drawing on Air:藝術家在空中繪出 3D 圖案
仿生之眼:具有電路的隱形眼鏡帶來超級視力?
奈米影片:捕捉 RNA 分子的三維移動畫面
3D 虛擬實境加速奈米機器人研發
雪花的數學模型
Giclée數位典藏新趨勢
宇宙是個「虛擬實境」?

沒有留言: