ChatGPT的出現開啟了各行各業對於AI應用的想像,許多企業積極利用內部資料嘗試透過API串接不同服務。不過,台灣智慧雲端服務股份有限公司副總經理黃世民提醒,OpenAI雖然開放ChatGPT的API,卻沒有公開模型內容,也就是使用者「只能接受別人已經訓練好的大腦。」
在提到ChatGPT背後的模型時,不能忽略Transformer這個關鍵的模型架構,許多知名的模型像是BERT與GPT-3等,都是奠基在這個架構上,也是在這個架構被提出後,才掀起對於「算力」的討論。「在Transformer這個模型出現之後,它既可以看過去所有的歷史,又可以平行化,」中央研究院資訊科學研究所研究員古倫維解釋,過往模型必須仰賴周圍或上一步的訊息才能進行下一步的判斷,而Transformer的厲害之處,在於它能全盤地掌握全局,也因此有越來越多的算力投入,並且不斷建立出越來越大的模型。
Transformer的模型又可以分為BERT及GPT兩大語言模型系列,而這些語言模型中的參數量也急劇增加,古倫維形容:「參數量增加的功能,有點像是我們可以記住很多東西。」但是,直到ChatGPT的出現,GPT系列才開始受到關注,最大的原因就是掌握了與人溝通的能力。隨著後續模型的能力越來越強,當中的參數量也越來越大,對於算力的需求也就逐步升高。
AI的發展就是一場軍備競賽
台灣智慧雲端服務股份有限公司副總經理黃世民認為,這些大語言模型的出現,就像是建構了一個可以處理多樣且複雜事物的腦袋,甚至對於各行各業以AI內部的從業人員帶來許多變動。在過去幾年,甚至可以發現與AIGC(Artificial Intelligence Generated Content)人工智慧生成內容相關的公司越來越多,甚至在短短兩個月內,ChatGPT註冊使用者就超過一億,並且吸引許多企業嘗試,以推出更多如文書處理、智慧客服相關的應用。
「OpenAI只有Open API,並沒有Open Model讓大家可以調整模型的表現,你只能接受別人已經訓練好的大腦,」黃世民提到,OpenAI雖然提供了目前最好的服務,但有許多具有特定領域知識的行業,以及在地化語言與法規的需求沒有辦法被滿足。因此,台智雲便利用Bloom這個開源模型,在強化其繁體中文能力後提供商業服務,讓企業可以利用自己的資料做出對應的應用與模型。但由於大型語言模型的訓練牽涉到算力,必須用到許多GPU,並且以超級電腦的運算架構叢集起來。目前全球的超級電腦,多半集中在美中以及多數石油公司手上。
那麼,台灣目前的算力資源是否充足?黃世民坦言,雖然目前台灣杉2號的算力在對內市場使用上,透過聰明的管理模式仍夠使用,但再過一段時間很可能就不足。他同時也透露,已有東南亞國家前來探問,想要建造自己的基礎模型。由於基礎模型的訓練是場馬拉松,如果我們持續投入,勢必不足。
新時代的來臨,要學習快速適應環境與技術的能力
除了算力,人才也是關鍵的資源。古倫維提到,人才一直都是缺乏的,由於過往台灣這方面的產業鏈並不大,許多厲害的人才都會選擇到國外大公司就業,因此,也期待能有更多人才能投入NLP等高階技術發展的領域。
面對越來越多的生成式內容的出現,古倫維建議,目前已有許多專家提出技術方法來判別,但是,「機器產生的不一定的是假的。」因為很多人利用AI作為創作工具,真假與否和是不是機器寫的並沒有關係,關鍵在使用者的意圖。較需要擔心的是,做壞事的速度會因為工具而加快。
隨著AI的能力越來越強,未來的學生又該具備哪些能力?古倫維指出,目前AIGC主要有三個關鍵問題,第一是資料透明度問題,因為無法掌握模型背後的資料來源為何;第二則是安全性問題,透過破解系統,取得其他公司的機密,也可能因為上傳公司的資料而洩露機密;第三則是道德問題。而這些問題都要仰賴教育,讓學生能有辨別是非的能力,同時,也要學習快速適應環境與技術的能力,培養持續學習的動機與方法。