蔡宗翰：算力不足有解，須掌握訓練垂直領域模型的焦點

社群媒體巨頭 Meta 日前推出迄今為止最大的開源 AI 語言模型 Llama 3.1 405B ，該模型使用了 16,000 個 Nvidia H100 GPU 進行訓練。面對這波模型軍備戰爭，中央大學資工系教授、TAIDE 模型訓練組召集人蔡宗翰認為，台灣即使面臨算力不足的挑戰，仍可以針對台灣本地的需求，訓練垂直領域模型，而當中最重要卻也常被忽略的關鍵在於評估。

Google 在 7 月 31 日發佈「台灣 AI 發展與治理：Google的洞察與展望」白皮書，隔日（8月1日）美國商會邀請 Google、人工智慧科技基金會以及台灣人工智慧卓越中心 (Taiwan AIoE) 等多位專家，分享台灣在 AI 時代的挑戰與機會。

自 2022 年底 ChatGPT 帶動生成式 AI 應用浪潮後，許多國家及科技巨頭紛紛投注資源發展大型語言模型，今年初至今，包括 Gemini、Phi-3、GPT-4o 幾乎每一個月就會有一個大型語言模型推出。而台灣在 2023 年初號召各界共同打造可信任生成式 AI 對話引擎（ TAIDE, Trustworthy AI Dialogue Engine），除了持續尋求技術層面的突破，也希望能打造專屬台灣產業的垂直領域模型。

蔡宗翰說，無論是技術交流論壇或是網路討論，許多人都將焦點放在模型訓練上，殊不知最重要的關鍵是評估。因為如果沒有一個好的評估機制的話，根本不知道模型做得好不好。透過精確的回饋才能讓模型的表現更加進步。他提醒，不要只看一般模型報告的指標，而是應該根據自己的任務設計專屬的評估標準。

在 Llama 3.1 所發佈的論文中不斷強調高品質資料。所以在 TAIDE 計畫中，資料組所要扮演的角色十分重要，除了盤點並收集所有可用資料外，更需對資料進行前處理、轉換相關知識、設計任務，針對每一任務，設計一些指令，並為每一個指令，準備高品質的回應，透過指令和回應配對微調模型。

同時，還必須要建立垂直領域資料集，最重要的就是找到擁有該領域資料、用戶的領域專家團隊，並引導該團隊找出有哪些資料可用於預訓練，接著設計任務。並需要與團隊的領域專家合作設計專用自動評估方法，反覆針對每個任務，與該團隊合作準備評估資料及準備微調資料。

他也建議，做大語言模型應該要兼顧文理科的思維，「許多工程師寧願相信國際上的評測標準分數，也不願意花時間看模型生成的文字，是否能產出讓使用者滿意的文字，解決使用的問題。」而這部分牽涉到思維的改變與培養，只有理工科的技術並不夠，需要文史以及社會科學等跨領域的專業投入，才能打造出真正適合台灣使用的繁體中文模型。

「只有台灣人最懂台灣人讓大家一起來，為台灣的百工百業打造資料集，不論是做為 CP、FT、Evaluation、RAG，都是極有價值。」蔡宗翰說。

推薦閱讀