ChatGPT 自去年底推出後話題不斷,不僅業界熱切關注及猜測後續產生的影響,就連國科會都說要投資打造臺灣本土的ChatGPT。台灣大學資訊工程學系教授鄭文皇認為,基礎模型對目前的AI研究肯定帶來新變革,並樂見有能力的企業出來號召,建立一個大型基礎模型的開發環境或生態系。
基礎模型將對目前的AI研究帶來新變革
近年來,AI研究有幾個重大的變革階段,約莫從2012年,目前依然熱門的深度學習開始被導入後,影響了近十年來的研究討論,包括如何建構更強的深度學習模型,也就是如何讓深度更深、模型的參數量更大,以發展出更強的模型。
直到2018年預訓練模型(Pre-training)出現。這時,最有名的模型叫做BERT。預訓練模型是用大量的數據訓練一個模型,然後用這個模型,再針對手上的任務進行微調。這個自2018年就開始進行的模式,近幾年非常流行。直到去年,基礎模型( Foundation Model )被提出後,才產生大轉變,大家目前所熟知的ChatGPT正是這種基礎模型。
他提到,所謂的基礎模型,也有人將它稱為LLM(大型語言模型),實際上不只有語言,還包括文字、影像,還有所謂的社交、媒體資料,並能將各種型態的資料整合到基礎模型中。
由於基礎模型能直接根據使用者輸入的指令,輸出對應的成果,例如問模型一個問題,它便會回答該問題,比起以往的模式更符合真實使用的情境,也更朝向所謂「通用人工智慧」的方向前進。
鄭文皇說,這就像是將過去的研究成果進行整併,因此也可能讓某些研究領域消失。例如視覺問答(Visual_Question_Answering,VQA),這在過去是一個單獨的領域,大家會討論如何給電腦一張圖,讓電腦根據圖片回答問題。可是這件事情已經是基礎模型的通用能力,而不用單獨去研究VQA的模型,因此,如何將基礎通用模型做好以完成VQA任務,將是未來的討論重點,這股趨勢必將重整研究領域的版圖。
產業想投入基礎模型的首要挑戰?
那麼,台灣產業如果要發展多模態基礎模型,必須要考量哪些要素與挑戰呢?
即使基礎模型如此熱門,為何投入的產業仍少?鄭文皇說,首要的挑戰是需要投入大量資金。由於基礎模型需要龐大算力資源,以最近極為熱門的 AI 生成圖片開源模型Stable Diffusion為例, 模型訓練使用了4000台 A100 顯卡集群,除了硬體資源的投入,訓練時所需要電費也是不容小覷。大量資金需求使得一般企業無法輕易投入,因此,需要有大型企業出來領軍,建立一個大型基礎模型的開發環境或生態系,並形成一個新的護國神山。
想發展基礎模型的生態系,鄭文皇認為,最基本需要有一個硬體平台環境,接著,才要考慮基礎模型該怎麼用,對哪些事情有幫助。在這個生態系中,必須結合學界、產業界的專家,包括技術、應用佈建、基礎建設,甚至是數據分析等不同面向的專業人士,共同討論出符合業界需求的基礎模型。另一方面,產業界也必須對基礎模型有一定的認識,避免對此有錯誤的想像。
但是,這樣的願景是個長期的工程,至少需要耗費3~5年,甚至是十年的時間。不過,鄭文皇建議,短期內應該可以針對一兩個業界有興趣的問題,收集對應的數據來搭建對應的基礎模型,並進行POC概念驗證是否能做到,並從中取得經驗。
多模態基礎模型已成世界各大企業兵家必爭之地,在鴻海研究院2023年第一場 NExT Forum 便以此為題,不僅邀請全球AI研究能量首屈一指、由圖靈獎得主Yoshua Bengio領導的AI實驗室MILA教授Dr. Irina Rish發表重要演說,同時也邀請到陽明交通大學電信工程研究所教授簡仁宗、清華大學資訊工程系教授賴尚宏、國立臺灣科技大學資訊工程系教授花凱龍等多位台灣知名學者,以及台灣微軟、台智雲等國內外產業專家,共同討論多模態基礎模型對台灣AI產業帶來的挑戰與機會,並提出整合台灣AI量能的務實模型建構方法,持續推進台灣AI的發展。
這場論壇最值得觀察的關鍵是?
鄭文皇認為,這場論壇邀請了多位不同研究領域的專家共同參加,有兩個值得觀察的重點,首先是從做研究角度來看基礎模型如何建立?由於這是一個相當新的方向,當中有許多能討論的技術問題,例如人類的知識如何被有效的組織與表達;各種模態研究領域又能如何結合?如何擴展到各種模態的應用?從產業面來看,也能藉此了解產業對於基礎模型的想像,以及各產業所關心的問題為何,而多模態基礎模型能如何被應用?
未來,不同研究領域的學者應該彼此合作,透過想法的碰撞,讓研究可以再擴大:甚至產學界的人士也能彼此交流、激盪不同的想法。
想了解更多『多模態基礎模型』的最新趨勢與應用,歡迎報名3月3日由鴻海研究院主辦 NExT FORUM,點此立刻報名