大型基礎模型衝擊 電腦視覺將出現第三次變革

電腦視覺模型快速發展的十年

從技術面來看,透過文字、語音、影像等多種不同模態資料訓練出來的基礎模型,能跟不同的任務再進行調整以符合使用需求。目前在電腦視覺領域也有許多應用實例,例如在自駕車的物件偵測上,能有一個通用的偵測模型可適用於各種外在環境,不受氣候或是日照光線影響;或是在智慧製造上也有相關的應用案例。

《經濟學人》雜誌(Economist)早在去年就提到「Huge “foundation models” are turbo-charging AI progress.」,基礎模型將在各領域帶來改變。鄭文皇說,自2021年開始出現的基礎模型,在技術面上跟原本的自監督式學習並沒有太大差別,但在模型、資料及算力需求三個部份卻變得更大。在這股浪潮中,ViT團隊也推出了目前最大的視覺模型,其參數量更是高達220億。(如下圖)從ViT到ViT-22所需的資料也在兩年內增加了十多倍的差距;算力更是呈現爆炸性的成長。

而在電腦視覺模型的變革上,從技術面來看可以分成幾段,一開始採用傳統機器學習進行,接著約從2012年左右進入深度學習時代後,CNN卷積神經網路紅了將近七、八年之久,直到進入Transformer時代。緊接著則是Diffusion Model時期,再到當前的Foundation Model。

除了分析式AI的發展,在生成式AI的發展也十分驚人,這十年來的模型發展從GAN、BigGAN、VQGAN、DALL-E 、Stable Diffusion,以及最近的Gen-1 。鄭文皇指出,從2020年加入Transformer架構之後,所產生的圖像畫質更細膩,影像尺寸也更大。2021年之後的DALL-E則是能藉由提供條件,讓模型產出對應的圖片;緊接著,能結合不同模態的CLIP Model也被提出,以及一連串的模型相繼被提出,更是讓人期待未來新模型的發展。

要達到真正通用型AI,只有視覺還不夠

「但要達到真正的通用型AI,只有視覺是不夠的,還需要整合其他模態。」鄭文皇提到,許多人工智慧工具的出現,顛覆了我們以往對於影片製作需要很多人力投入的工作模式,透過ChatGPT生成腳本、Midjourney產生圖像、Dall-E進行影像風格調整、Clipchamp編排影像與旁白,最後使用Creator.aiva產生背景音樂,僅以一人之力整合不同工具的應用就能產生一部影片。目前已有一些商業案例出現,例如法國家樂福的行銷團隊,便用ChatGPT加上其他生成式AI工具產生行銷影片。可以預期生成式AI將對產業產生衝擊,甚至未來十年的市場價值將會大幅提升,而需要的算力曲線也會與成長曲線一樣上升。

在這波浪潮下所面臨的許多挑戰,包括如何訓練這麼大的模型,又該如何善用GPU的特性將資料進行切割,不僅是學術面也是工程面上的大挑戰。此外,由於影像可以傳遞的訊息量十分豐富,在視覺上也會遇到「一圖勝千言」的狀況,如何進行Human-Level的分析就是一大挑戰。且即使是目前的大視覺模型也沒有辦法達到跟人一樣的能力,例如認知與指令上的整合。

大者恆大的未來挑戰

此外,如果我們將現在Market ecosystem的應用模式分成三層:「Infrastructure, tools and data」、「Model Layer」、「Application Layer」,從最下層基礎設施層就能看出當誰擁有數據、算力就能建立模型,而訓練好模型的人並不會開放而是直接產生應用層的工具,其他人只能使用應用工具,像這幾個月大家爭相註冊使用的ChatGPT就是如此。真正的使用者或開發者僅能掌控的是建立於模型上的應用工具,以及模型共享平台(Model sharing platform e.g., Hugging Face),誰擁有數據及算力才是真正擁有關鍵技術。

另一方面,在真實情境中,也可能會遇到如何在邊緣裝置上實現大模型的運算等挑戰。雖然可以利用模型壓縮等方式,但因為模型特性的不同,在硬體的設計上,例如晶片的設計也會有不同考慮點。再者,是人工智慧的安全問題,常聽到的狀況就是從模型進行反向工程,進一步得到訓練資料,造成資料外洩的問題,例如透過指令,讓模型產生與資料集相同的影像等狀況。

迎接人工智慧的下一步會是什麼?鄭文皇認為,不僅基礎模型將會成為科學研究的主流之一,且多模態的基礎模型也會有越來越多的應用範疇,而基礎模型的提供者或擁有者,將會成為新AI時代的霸主。

瞭解更多大規模視覺基礎模型的演進,請點選以下影片觀賞: