ChatGPT引關注,鴻海研究院分享多模態基礎模型的機會與挑戰

在Midjourney、ChatGPT等AI應用爆紅,引發全球討論後,其背後基礎模型的重要性也備受關注。在這股趨勢下,鴻海研究院2023年第一場 NExT Forum 便以多模態基礎模型為題,邀請加拿大Dr. Irina Rish、MILA、台灣微軟、台智雲等國內外專家學者與企業共談多模態基礎模型對台灣AI產業帶來的挑戰與機會,並提出整合台灣AI量能的務實模型建構方法,持續推進台灣AI的發展。

基礎模型(Foundation model)指的是,透過大量數據訓練出能執行多種不同任務的模型(通常有規模的使用自監督式學習),例如Google、Facebook等大型科技公司,近幾年挹注龐大的資源訓練出大型模型,如GPT-3、BERT等,都屬於基礎模型。

透過這些大模型的基礎架構,能再接續開發其他應用,例如BERT近來被廣泛應用於自然語言處理;其他領域包括電腦視覺、蛋白質摺疊、音樂等,也都能看到基礎模型的應用;大型科技公司也越來越積極地投資於模型的開發,並擴大產品應用與影響力。

用AI打造台灣下一座護國神山

多模態基礎模型(Multi-Modal Foundation Model)包含了視覺、語言及語音三大模態,這個引起全球注目、複雜多工又龐大的模型,對台灣的意義又是什麼?

鴻海研究院人工智慧研究所所長栗永徽舉例,被稱作「護國神山」的台積電,不只是因為掌握了先進技術,更是因為全世界的人的電子產品,舉凡電腦、手機、家電、汽車、精密機械都需要仰賴其生產的晶片。而AI的基礎模型也類似,AI應用已經逐漸普及在日常的生活中,預期未來將會有越來越多的都會需要應用到它,如果我們有大型的基礎模型,只要將模型微調(fine tune),就能對應到各式不同的下游任務。現在就看哪一家公司有能力可以掌握到基礎技術,並能快速訓練出模型,並適應各式不同任務。

AI如同國力,考量到不斷擴大的應用與規模,許多人已經開始思考即將到來的疑慮與危機。例如在這波chatGPT的熱潮中,可以看到有許多開發者開始寫程式將自己的服務與chatGPT連結,這等於是將身家資產架在別人家,一旦這些平台不再開放使用,或是計費模式超過負荷時,應該怎麼辦?

多模態基礎模型開發是資源競賽

栗永徽坦言,發展多模態基礎模型需要相當大的運算資源,更是一場資源的競賽,也不是速成的研究。

栗永徽認為,台灣產業要發展多模態基礎模型,光靠一己之力還不夠,更需要號召有志一同的人士一起加入。他說,這次的論壇還邀請了視覺、語言及語音等不同領域的專家,包括專精於NLP領域的中研院資訊科學研究所研究員古倫維、語音辨識則是邀請到台灣大學電機工程學系 副教授李宏毅,以及專精於電腦視覺領域的鄭文皇。栗永徽期許,透過這場論壇,促進產業連結,號召有志之士加入,促成台灣AI的下一步發展。

想了解更多『多模態基礎模型』的最新趨勢與應用,歡迎報名3月3日由鴻海研究院主辦 NExT FORUM,點此立刻報名