以垂直整合的系統架構與基礎建設提升AI能力

「這是一場AI Model軍備競賽!」國立台灣大學資訊工程學系教授兼系主任洪士灝提到,目前的AI Models越來越強大,例如近年備受矚目的語言模型GPT-3;或是微軟和NVIDIA合作開發的語言模型Megatron-Turing NLG(MT-NLG),近期Google也發表一套具5400億參數的自然語言模型PaLM(Pathways Language Model)。

越來越強大的AI Models 不只訓練模型就好

洪士灝說,無論是MT-NLG或是PaLM,都需要軟硬體平台的整合。以微軟的語言模型為例,想要訓練出MT-NLG這樣的強大語言模型,除了有NVIDIA提供超級電腦級算力平台,微軟更特別打造訓練開源軟體DeepSpeed。而Google則不僅早在2014年就布局投入自行設計AI晶片TPU,使用6144顆TPU並在上面做了一套軟體框架Pathways,展現其兼具TPU及Pathways軟體系統的火力,擁有可做大量平行計算,訓練語言模型的實力,同時也將模型訓練的方式都發表成論文。

至於如何有效率的用6144顆TPU進行大規模的訓練?洪士灝說,整體來說這是一個系統性的問題,在上面架設一個框架,叫做Pathways,進行大規模的訓練,像這樣的系統就是想辦法把一個大模型拆成中型的區塊,想辦法把各個訓練的工作送到這些區塊上。

洪士灝指出,所以學AI並不是拿一個模型、蒐集資料,訓練模型就好。一個AI系統中,包含了許多傳統電腦科學或是資工學科中的基礎技術,例如計算的架構、排程、平行計算等,這些都是打造AI系統架構跟基礎建設的重要基本技術。

除了底層基礎建設,還需要垂直整合

洪士灝提到,在資料中心(Datacenter)中,有成千上萬的機器可以幫忙快速訓練,甚至可以搭配加速器或GPU讓工作可以更快速地完成。但除了底層的基礎建設,更重要的是垂直整合,因此,上面還需要哪些搭配或挑戰呢?

首先是資料的安全與私密性,雖然知道Google有強大的的基礎建設與系統架構,但是你敢將資料放到Google的資料中心嗎?再者要考慮的是要如何選擇並設計專屬的神經網路架構?在正確、速度、省電、便宜等條件下要如何取得最佳平衡?洪士灝說,以往我們可能會選擇堪用的Open Source,但往往會有客製化需求,這時候做得好跟做不好的效能就差很多,這就是Neural Architecture Search。

最上面還有應用面,例如Edge AI,洪士灝認為,Edge AI可能是台灣產業較能著力的地方,因為Datacenter的規模太大,能用到的公司還是少數,但是,很多物聯網或是消費型的電子產品都有可能用到Edge AI。但是,在這個時代Edge、Cloud跟Datacenter的距離並沒有想像中這麼遙遠。甚至有可能從中創造出分工合作的機會?

四種AI 與邊緣運算的應用環境:

該如何以AI為中心打造應用情境,從Edge到Cloud又有哪些合作機會?洪士灝舉出了四種方法:

一、利用手機或一個有計算能力的邊緣裝置,並將加速器放到該裝置上,就能獨立做AI的運算,例如iPhone的臉孔辨識。

二、當終端裝置能連網,卻不具有AI處理能力時,就很適合拿來做物聯網的應用。透過連網後,將影像或資料傳到最近的伺服器上,例如電信公司基地台或公司裡的閘道器,就近讓行動裝置具有AI功能。

三、也可以把一個神經網路拆成很多塊,分成不同裝置處理。當我們啟動物聯網裝置後,將資料分成不同段運算。因此,中後段的伺服器不太會接觸原始的資料。這樣做的好處是,除非駭客透過逆向工程回推取得原始資料,否則不太容易得知原始資料。這也是一種合作模型,不僅可以分工,也不用讓原始資料離開裝置。

四、在一台較弱的行動裝置上,放上一個簡單的AI模型,雖然結果較不準但可以較快算出答案。同時將資料往後傳,進行即時糾正。

洪士灝說,越來越快的網路速度加速Edge AI蓬勃發展,5G也提供了高頻寬與高速度,讓我們能及時傳遞資料。雖然距離長一點時,還是會有延遲情況。但是,使用者就必須思考應用場景對延遲能容忍到什麼程度?例如當無人機運行時,需要立刻做決定時,就需要就近解決需要做決策的任務。在部署模型到邊緣裝置上時,需要考量該Edge device的能力到什麼程度,適時壓縮或提供稍微小一點的model,以符合小裝置需求。