如何讓 ChatGPT 不亂說話?經濟學 AI 助教的練成經驗分享

網路與智慧型手機的普及改變了消費者獲取知識與娛樂的方式。過去,讀者只能透過電視、廣播、紙本等傳統媒體獲取資訊;但現在透過網路與智慧型手機,資訊的接觸較以往來得及時且方便。面對閱讀習慣的改變,出版業者如何透過科技的幫助,提供消費者新的閱讀體驗,進而創造新的市場價值。

生成式 AI 可以成為學習知識的新管道?

疫情後,媒體出版產業的整體成長表現不佳,更陸續出現許多競爭者,包括生成式 AI 工具的爆發,更是引發文字工作者對於工作將被取代的擔憂。「有沒有可能生成式 AI 是增加我們學習知識的管道?」人工智慧科技基金會執行長溫怡玲說,一如大家都認為廣播將式微,但其實人們仍想要透過聲音吸收資訊或娛樂,只是收聽的渠道變成了 Podcast。那麼,我們能不能透過科技的幫忙,拆解過往熟悉的閱讀習慣,創造不同的體驗以滿足更多人的需求。

因此,人工智慧科技基金會與天下雜誌合作推出「孫主任 AI 助教」,自行開發架構於大語言模型之上的 AI 系統,打造出《孫主任的經濟筆記》一書專屬的導讀對話機器人,期待為讀者創造新的閱讀體驗,讓讀者藉由與AI的對話,快速掌握書中所提及的經濟知識,提高學習效率;而出版社也可以透過互動流程,更深入理解讀者的閱讀喜好與樣貌,甚而找出新的出版主題。

溫怡玲與台經院景氣預測中心主任、人工智慧科技基金會董事孫明德自 2018 年開始,嘗試透過演講、線上課程、網站專欄再到書籍出版等不同的傳播方式,將一般人害怕的總體經濟拆解包裝成不同的主題與樣貌。溫怡玲說,一開始邀請孫明德錄製線上課程,是希望可以讓更多人不受時間與地點限制,藉此對於美中科技戰有更深的認識;直至疫情爆發,觀察到整體大環境將有劇烈變動,因此又把該系列課程重新包裝成上班族必備的總經知識。後續收到回饋,希望可以更有系統地學習總體經濟,因此,又將課程內容重新改寫成書。這一系列其實都是為了符合不同的學習模式,所以將同樣的內容拆解成不同的呈現方法。

除了技術,更重要的是對實際情境的掌握度

直至 2022 年底 ChatGPT 出現並在產業掀起一陣討論後,人工智慧科技基金會也開始思考,能否藉由 AI 為產業提供新的解方。因為根據基金會「2023 產業 AI 化調查」結果顯示,雖然 ChatGPT 在 2023 年引起產業高度關注,但少有企業實際落地應用並藉此創造出新的價值。因此,人工智慧科技基金會希望能藉由新工具的提供,與產業一起分享日常情境中的新科技運用。溫怡玲表示,這是一個初步的嘗試,實際上能產生什麼樣的價值,仍取決於企業對自身商業情境的掌握度,以「孫主任AI助教」為例,除了技術之外,更重要的是媒體與出版產業是否知道自身讀者群實際的需要。

實際上,這並非出版業第一次應用新科技找尋產業解方,2016年,人工智慧科技基金會已故董事長暨執行長陳昇瑋也曾與網路書店合作,帶領資料洞察實驗室成員透過資料分析與機器學習技術,找出潛藏在書籍銷售數據中的客戶資訊,包括誰在買書、買什麼書、什麼書會暢銷……等問題,協助出版業者以資料及科學方法,輔助決策的進行。

選擇使用哪種大型語言模型與做法將取決於應用場景與目的

人工智慧科技基金會技術發展中心副總監蔡岳霖解釋,「孫主任 AI 助教」主要串接GPT3.5 的 API,透過 prompt 的設計,結合擷取增強生成(RAG)技術,讓對《孫主任的經濟筆記》一書有興趣的讀者,可以透過機器人快速找到書中相對應的內容試讀,比起過往固定的推薦序或書摘內容,更能快速掌握書籍內容是否符合所需。

不同於傳統的客服機器人,該模型主要是架構於大型語言模型上的模型,不需要寫一堆規則與對應範本,且大型語言模型使得模型在理解與回應內容上更加彈性與靈活。而 RAG 技術則是限制模型只能從特定的資料來源中,生成句子回應,有效解決生成式 AI 可能產生「幻覺」,憑空捏造錯誤資訊的問題。蔡岳霖說,在模型訓練上之所以選擇用 RAG 技術,而不用 fine-tune,主要則是考量到訓練成本與難度,因為 Fine-tune 需要投入大量硬體資源進行訓練,且應用情境僅限於單一書本內容對答,而無法泛化到其他情境上,實在有點可惜。

「孫主任 AI 助教」訓練過程示意(圖片來源:人工智慧科技基金會)

至於為何在眾多大型語言模型中選擇 GPT3.5 ?蔡岳霖說,雖然 GPT4的成效略勝於 GPT3.5 ,但考量到出版業預算限制,在評估過成本效益後,選擇使用 GPT3.5。團隊同時也試用過其他的繁體中文大語言模型 (e.g. Taiwan-Llama, FFM-Bloomz),舉FFM-Bloomz為例,由於 FFM-Bloomz 為強化了繁中語料訓練的大型語言模型,在 token 的消耗量上較為節省,也能很好地理解與使用繁體中文做回應,另外若需要不斷使用 GPU 訓練LLM,台智雲亦提供簡便易懂的Finetune介面和方法。但此次的專案需要考量該機器人的應用情境與使用成本,最後選擇使用 GPT-3.5 。

溫怡玲提到,基金會從 2023 產業 AI 化大調查中發現,國內產業如零售、旅宿、媒體出版等產業,在 AI 化程度上遠低於其他產業,若不協助產業弭平技術落差,使其儘早開始使用 AI ,再加上即將來臨的缺工危機,企業的未來岌岌可危。期待藉由「AI 陪讀助理」的釋出,讓 AI  化程度較為落後的產業,能在運用新科技的過程中找到新的啟發。基金會仍將以產業 AI 化為目標,今年將重點關注零售、旅宿、媒體出版、醫療等產業,同時公布 AI 導入的完整方法論。後續將釋出「AI 陪讀助理」體跟出版業應用,也邀請有興趣合作的企業可以與我們聯絡。

《孫主任的經濟筆記》兩位作者也將於 2024 書展上與讀者進行座談,並邀請讀者一同與 AI 版《孫主任的經濟筆記》進行互動,兩場沙龍講座時間如下:

《AI孫主任的經濟筆記》沙龍活動: