小語言模型是企業 AI 化的大事?

天下事合久必分、分久必合,這個道理在生成式 AI 的應用似乎也有跡可循:前兩年全球追逐更多的參數、更大的模型,但經過這段時間的摸索嘗試之後,許多企業已經發現,相較於像 ChatGPT 這種大型基礎語言模型,小語言模型(SLM, Small Language Models)在特定場景與任務的表現,很可能更符合企業的實際需求。《MIT Technology Review》也將 SLM 列入 2025 年十大突破技術當中,無論在技術應用和實際需求都有跡可循。

小語言模型和大語言模型的異同

相較於大眾所熟知的大語言模型,小語言模型專注於特定任務或場景,可以更專注、快速完成特定限定範圍的工作。相較之下,大語言模型雖然具備強大的跨領域知識整合與生成能力,有極佳能力處理多樣化、複雜性的問題。但是由於目前生成式 AI 需要依賴大量數據、昂貴的算力,加上台灣獨特的產業結果,經常無法符合中小企業的真實需求。

在大語言模型出現之後,許多人都認為很快會進入強人工智慧(strong AI)或通用人工智慧(AGI,artificial general intelligence)時代,AI 具備與人類同等甚至超越人類的智慧,能表現正常人類所具有的所有智慧型行為。但這種想當然耳的推論,忽略了實際應用時的限制。例如,生成式 AI 在個人使用與企業使用上有相當大的差異,如果要成為企業正式營運系統的一環,需要的不只是模型,更重要的是數據、和其他現有系統的整合,以及專業足以維護運作的人才,這是中小企業進入的第一個關卡。

其次,就算有了工程師,究竟要用生成式 AI 來解決什麼問題?技術如何恰如其分扮演這樣的角色?這是常見的第二道關卡。再來,大語言模型對所有任務採用通用邏輯,在特定場景中的精確度不如針對該場景訓練的小語言模型。而且,大語言模型的幻覺,至今仍是難解的問題。特別對於法規要求嚴格、消費者意識強烈的特定產業來說,構成了導入時最嚴苛的考驗。

大小不是重點,四個考慮更為關鍵

顯而易見,對企業來說,模型大小並非最重要關鍵,如何有效解決問題、避免風險,並且將成本控制在可負擔範圍內,才是關注的重點。

小語言模型由於其專注於單一場景或任務,模型的計算過程更加簡化,因此能夠實現更快的推理速度。例如在製造業中,這種即時性特別關鍵。在生產線上進行設備狀態監控時,小語言模型可以快速檢測異常並發出警報,幫助企業避免停工損失。

同時,企業可以根據自身需求對模型進行定製,並快速調整其功能以適應業務變化。這種靈活性使小語言模型成為短期專案或快速迭代場景的理想選擇,特別是在技術更新快、需求變化大的行業中。

另外,小語言模型模型所需算力資源遠低於大模型,同時,企業不必投入龐大的硬體基礎設施就能夠部署,這對於中小型企業尤為重要。例如,某些邊緣計算場景中,小語言模型能在嵌入式設備上運作,或者配合一台 AIPC 即足夠,不需要倚賴昂貴的雲端或硬體設備。

也因為不必仰賴雲端,因此隱私安全是小語言模型的另一個顯著優勢。小語言模型只需要在本地端部署,數據不必外傳,可以減少數據洩露的風險。對於嚴格隱私法規限制的行業,是另一種既符合法規又能保護用戶數據的解決方案。

善用小語言模型 布署軟體整合商機

對於台灣而言,小語言模型更提供了軟硬體整合的絕佳機會。

雖然這兩年這兩年生成式受到極大矚目,但無論從調查數據或實地訪查企業經驗看來,生成式 AI 對於台灣製造代工業、特別是中小企業的幫助有限。台積電研發處前處長楊光磊博士以半導體產業為例指出,半導體產業特質和生成式 AI 的技術原理,在結構上就很難直接融合。以數據而言,製造業需要掌握的數據,並不是真實世界的語言,本就不是這波生成式 AI 使用大型基礎模型的強項。

根據楊光磊任職多家全球頂尖半導體企業的經驗,就算在台積電的時候負責研發部門,工作流程中都不需要像生成式 AI 這麼大量的訓練數據和巨大模型。不難想像,一般中小型製造業硬要使用大語言模型,實際效用相當有限。

中華電信獨立董事簡立峰表示,小模型只要增加一點點邏輯推理,效能就會增加很多,也讓邊緣 AI 的應用更多元、範圍更廣,對於 AI 代理(AI Agent)的發展會有極大貢獻。而邊緣 AI、AI Agent,以及接下來幾年火紅的 AI 機器人所需要的硬體,本是台灣的強項所在。

楊光磊表示,用耗能極大的生成式 AI 做每件事情是不必要的,企業的營運模式才是關鍵,找出有價值的題目,評估如何和強大的機器合作,才是 AI 未來發展真正的關鍵。