社群媒體巨頭 Meta 日前推出迄今為止最大的開源 AI 語言模型 Llama 3.1 405B ,該模型使用了 16,000 個 Nvidia H100 GPU 進行訓練。面對這波模型軍備戰爭,中央大學資工系教授、TAIDE 模型訓練組召集人蔡宗翰認為,台灣即使面臨算力不足的挑戰,仍可以針對台灣本地的需求,訓練垂直領域模型,而當中最重要卻也常被忽略的關鍵在於評估。
Google 在 7 月 31 日發佈「台灣 AI 發展與治理:Google的洞察與展望」白皮書,隔日(8月1日)美國商會邀請 Google、人工智慧科技基金會以及台灣人工智慧卓越中心 (Taiwan AIoE) 等多位專家,分享台灣在 AI 時代的挑戰與機會。
自 2022 年底 ChatGPT 帶動生成式 AI 應用浪潮後,許多國家及科技巨頭紛紛投注資源發展大型語言模型,今年初至今,包括 Gemini、Phi-3、GPT-4o 幾乎每一個月就會有一個大型語言模型推出。而台灣在 2023 年初號召各界共同打造可信任生成式 AI 對話引擎( TAIDE, Trustworthy AI Dialogue Engine),除了持續尋求技術層面的突破,也希望能打造專屬台灣產業的垂直領域模型。
蔡宗翰說,無論是技術交流論壇或是網路討論,許多人都將焦點放在模型訓練上,殊不知最重要的關鍵是評估。因為如果沒有一個好的評估機制的話,根本不知道模型做得好不好。透過精確的回饋才能讓模型的表現更加進步。他提醒,不要只看一般模型報告的指標,而是應該根據自己的任務設計專屬的評估標準。
在 Llama 3.1 所發佈的論文中不斷強調高品質資料。所以在 TAIDE 計畫中,資料組所要扮演的角色十分重要,除了盤點並收集所有可用資料外,更需對資料進行前處理、轉換相關知識、設計任務,針對每一任務,設計一些指令,並為每一個指令,準備高品質的回應,透過指令和回應配對微調模型。
同時,還必須要建立垂直領域資料集,最重要的就是找到擁有該領域資料、用戶的領域專家團隊,並引導該團隊找出有哪些資料可用於預訓練,接著設計任務。並需要與團隊的領域專家合作設計專用自動評估方法,反覆針對每個任務,與該團隊合作準備評估資料及準備微調資料。
他也建議,做大語言模型應該要兼顧文理科的思維,「許多工程師寧願相信國際上的評測標準分數,也不願意花時間看模型生成的文字,是否能產出讓使用者滿意的文字,解決使用的問題。」而這部分牽涉到思維的改變與培養,只有理工科的技術並不夠,需要文史以及社會科學等跨領域的專業投入,才能打造出真正適合台灣使用的繁體中文模型。
「只有台灣人最懂台灣人讓大家一起來,為台灣的百工百業打造資料集,不論是做為 CP、FT、Evaluation、RAG,都是極有價值。」蔡宗翰說。