中研院繁中大語言模型引熱議 ,企業使用 LLM 該注意哪些事?

中研院日前開源釋出了以 Llama 2 開發的繁中大型語言模型 CKIP-Llama-2-7b,並將其放上 Github 等平台,提供學術與商用。由於開放商用,加上強調繁體中文大型語言模型及中研院詞庫小組等名稱加持,讓許多人對該模型的能力有所期待,沒想到卻被使用者反應,模型所回應的內容不夠本土化,甚至可能觸發兩岸敏感神經,因而引發熱議。

使用繁體中文就夠本土化了嗎?模型開發的情境考量

中研院資訊所聲明中提及,「CKIP-Llama-2-7b 的研究目標之一是讓 Meta 開發的 Llama 2 大型語言模型具備更好的繁體中文處理能力。」並將明清人物的生平進行自動化分析,建構自動化的歷史人物、事件、時間、地點等事理圖譜,而訓練資料除了繁體中文的維基百科、臺灣碩博士論文摘要,還包括中國開源的任務資料集 COIG(CHINESE OPEN INSTRUCTION GENERALIST)與 dolly-15k 資料集。

由於受限於資源與設備,要重新訓練一個繁體的大型語言模型,除了繁體中文語料的搜集外,在這之前必須投入的資料處理與硬體設備成本極高,並非一般企業或學術單位可負擔。而目前常見的大型語言模型主要有兩種使用方法,第一是利用未開源模型的 API 來串接,例如OpenAI 以 GPT 模型 API的方式開放使用,這種方法適合用量較少的個人或中小企業。第二則是使用開源模型再加上自己的資料訓練模型( fine tune ),例如此次 CKIP-Llama-2-7b的做法,就是以商用開源模型 Llama-2-7b 及 Atom-7b 為基礎,再補強繁體中文的處理能力。

衍伸閱讀:
1.訓練一個 ChatGPT 得投入多少資源?

2.小數據條件下的語意分析

不過,人工智慧科技基金會技術發展中心總監蔡岳霖提醒,即使是開放商用的模型,企業仍需要從自身的應用情境進行判斷是否合適,其中一個判斷基準就是了解模型的訓練資料。至於企業在模型的開發上,究竟是要選擇利用 API 串接或是  fine tune,除了成本考量之外,也可依企業的應用情境做考量。

以基金會自行開發的「孫主任財經機器人」為例,就是以 API 串接方式與 retrieval augmented generation (RAG) 的技術,主要的原因是該機器人的設計,是希望回應都是根據《孫主任的經濟筆記》一書中的內容而生成。如果利用 fine tune 的方式讓模型學會的話,模型回應的內容將會融合書中的內容及語言模型既有的知識,將無法確認來源。

此外,對於加入特定資料 fine tune 的作法,是否會影響模型的通用性?

蔡岳霖認為,目前並沒有一個客觀的評估標準,所謂的通用性是種相對的比較。例如,若使用者的通用指的是台灣地區的通用知識,那所有臺灣使用者的提問,都可以被回應,就足夠有通用性;但如果相對於全球的知識,可能就不夠通用。

商用模型該注意的風險:生成式 AI 的隨機性

蔡岳霖認為,在 LLM 模型應用上,無可避免的風險就是「模型的隨機性」,也就是無法控制模型生成的內容,都能完全符合預期且零出錯。因此,有許多企業會提供 Prompt 的限制,先將模型限制在某個情境下再提問,例如,禁止洩露個人資訊、不能提供危害人類的建議等。而企業在應用到產品或服務時,也可以先將提問的限制告知使用者,或是事先設想避免回應的問題與機制。但這些作法,也只是降低風險,企業在應用上仍需要想清楚,如何在每個環節做好避險措施。

隨著企業對於 AI 模型的開發與使用漸增,預期關於 Trustworthy AI 議題的討論,將很快受到關注,對於 AI 模型與產品的規範與限制也會逐漸出現。例如歐盟於今年中通過的《人工智慧法案》草案,便禁止在大型語言模型(如OpenAI的GPT-4)的訓練集中使用任何受版權保護的資料;或是要求生成式 AI 模型開發者在設計模型時,必須設立足夠的護欄措施,避免生成的內容違反歐盟法律。這些相關規範,都是企業未來在使用 LLM 時,需要考量的風險要素。