
現今大型語言模型(LLM)雖能生動生成文字、圖片與影片,但它們能否真正理解並與三維世界互動,仍然充滿疑問。想像一下,如果只需一張平面照片,你就能創造出一個可以隨意探索、充滿互動的三維世界呢?這不再是科幻小說,而是李飛飛與其創辦的 World Labs 正在努力實現的願景。然而,這僅僅是通往「空間智慧」(spatial intelligence) 時代的起點。
「人工智慧不僅限於語言理解,它正在拓展至空間與具身智慧,開始與我們共同思考、行動,甚至影響我們如何建構文明。」史丹佛人本人工智慧研究中心(HAI)院長、World Labs 執行長李飛飛日前在法國巴黎人工智慧行動峰會 Artificial Intelligence Action Summit 開幕演講上表示。
自 2022 年底 ChatGPT 問世以來,大型語言模型便是 AI 圈討論熱點,不僅打開所有產業對 AI 應用的想像,更讓科技巨擘競爭愈形白熱化。然而,除了語言之外,人類智慧還有一個極為重要的關鍵,那就是「空間智慧」。而這也是李飛飛的新創團隊 World Labs 聚焦的重點。
2024 年4 月甫成立的 World Labs,在短短幾個月間已成功融資 2.3 億美元,投資者包括 Andreessen Horowitz、NEA 和 Radical Ventures,這家位於舊金山的新創公司,致力打造「大世界模型」(Large World Models, LWMs)試圖讓 AI 從平面圖像中推演出空間結構,為未來 AR/VR、機器人和創意產業帶來前所未有的應用可能。
什麼是世界模型與空間智慧?
在 AI 領域,「世界模型」(world model) 指的是能夠模擬並理解現實世界結構與動態的內部表徵。簡言之,一個強大的世界模型不僅能讓 AI 讀懂文字或解析圖像,還能推演出三維空間中物體的幾何形狀、位置以及彼此間的關係,進而預測未來的變化與行動結果。
空間智慧正是達成這一目標的關鍵:它不僅賦予機器「看見」的能力,更讓它們「理解」三維世界並「行動」,從而逐步學習如何在現實或虛擬環境中與人類協作。
視覺的起源與空間智慧的演化
在李飛飛近年的演講中都會提到,視覺並非一開始就存在。在 5.4 億年前,世界仍處於黑暗裡,並非因為缺乏光線,而是因為這時根本沒有視覺。直到三葉蟲這類最初能感知光的生物出現,視覺才逐漸誕生。最初,生物僅僅是被動地接收光線,但隨著神經系統的演化,這種能力逐漸轉化為主動的洞察力,讓生物能夠理解環境並作出行動。這正是智慧誕生的關鍵──理解促使行動,而行動又反過來豐富了感知。
5 億年後,人類智慧讓這個物種能夠想像並塑造出工作與生活方式。我們不再滿足於僅僅擁有大自然賦予的智慧,好奇心更促使我們創造出與人類智慧相同、甚至更聰明的機器。
直至今日,從早期僅僅在圖像上加上標籤,到後來發展出分割物件、預測物件間動態關係的演算法,現代 AI 技術正不斷突破。而最近興起的擴散模型則能夠將人類語言轉換成全新創作的圖像與影片,正如 OpenAI 的 Sora [*] 與其他團隊所展示的成果。然而,僅有平面「視覺」是不夠的──真正的突破在於如何賦予 AI 空間智慧,讓它能夠從單張圖像中生成 3D 形狀,甚至將文字描述轉化為完整的房間佈局
World Labs:空間智慧的第一步
被譽為「AI 教母」的李飛飛與其研究團隊,藉由 ImageNet 推動計算機視覺革命,這是首個大規模的人工智慧訓練與評估數據集,並開啟了全球使用大數據訓練人工智慧的趨勢。
如今,她所帶領的 World Labs 將聚焦於「空間智慧」,致力於開發空間智慧相關的技術,希望透過空間智慧,構建出一個真正能夠理解、模擬並與三維世界互動的世界模型,從而讓 AI 不再僅僅是靜態的「看見」,而是能夠「理解」並「行動」的智慧夥伴。
空間智慧將如何改變世界?
1.連結感知與行動
就如同我們看到桌上的玻璃杯,能夠立刻預測出若推倒它會發生什麼一樣,空間智慧讓 AI 能夠從圖像中學會推理和行動。這對於機器人導航、虛擬實境等應用至關重要。
2.理解三維結構
AI 若能準確重建出物體在三維空間中的形狀與位置,無論是在家居設計、遊戲環境還是醫療應用中,都能帶來更高的真實性與可靠性。
3.推動自主學習
利用由三維模擬環境驅動的訓練,AI 可在無限可能的場景中反覆嘗試與改進,從而獲得真正的行動智慧,類似於生物在自然環境中學習求生技能。
4.促進人機協作
未來,AI 不僅僅是工具,更能成為我們的合作夥伴。例如,智慧機械臂根據口頭指令完成各種任務;自主機器人運送醫療用品,或利用腦電波控制來協助癱瘓病人完成日常動作。
展望未來
目前 World Labs 的技術讓我們初步見識到從單張照片生成三維世界的可能性,但這僅僅是開始。正如 5.4 億年前視覺的誕生引發了生物界的巨大變革,空間智慧的進一步發展將推動 AI 領域的新一輪數位寒武紀爆發。當 AI 真正具備了「看見、理解、行動」的綜合能力,不僅能夠在虛擬環境中創造無限可能,更將成為我們日常生活中可信賴的智慧夥伴,進一步提升生產力並增強人性化體驗。
雖然現今 LLM 的技術已能看到讓生產力提升的潛力,但我們還要更加關注真正能將感知轉化為行動的核心能力,以適應多變的企業應用場景。如同李飛飛強調,未來的重點不在於僅僅生成內容,而是如何讓 AI 學會在三維空間中自主探索與互動。這需要結合現有的技術與企業策略,真正打造出以人為中心的空間智慧系統。從視覺演算法到具備動態學習能力的自主機器人,每一個突破都是邁向未來的重要一步。