開源大語言模型:實現全民參與的AI時代

生成式 AI 的迅速發展,不僅降低 AI 的使用門檻,也加速應用開發的時間,NVIDIA 執行長黃仁勳甚至認為,「ChatGPT是AI終於迎來的 iPhone 時刻」。

而生成式 AI 的爆紅也讓背後的大型語言模型受到關注,繼 5 月發表企業級大型語言模型服務(AFS)後,台灣智慧雲端公司(TWS)日前再展示以開源模型為基礎所發展的各式大型語言基礎模型,除了最新的 Meta Llama 2,包含 70 億參數、130 億參數和 700 億參數的模型版本、Code Llama (34B、13B、7B)系列等,還有繁體中文強化版的 FFM-176B、FFM Llama2 70B,並預告後續將納入合作夥伴所開發的模型,提供企業用戶更多選擇。

人工智慧科技基金會資料科學家蔡源鴻說,對大語言模型(LLM)而言,模型越大,參數量也就越大,就像是先天的腦容量越大;而資料量越多,就好比後天讀的書越多,但是訓練成本也會越來越高,也就是說,要創造一個大語言模型,只有大科技公司才玩得起。這種先天的限制除了有可能造成壟斷之外,還有另外一個原因是,以 ChatGPT 來說,其訓練資料語言比例極為不均且大部分資料不明,而繁體中文甚至小於 0.1%。為了突破這些困境,才有了開源大語言模型的想法。

目前可以觀察到有越來越多開源大型語言模型出現,除了之前由 Hugging Face/BigScience 所發佈的 BLOOM ,它也是第一個以完全透明方式訓練的多語言 Open LLM,能夠在 46 種自然語言和 13 種程式語言中生成文本,並且採用新的 Responsible AI License,以避免被應用於執法機構或醫療保健等高風險領域,更禁止被用來傷害、欺騙、剝削或冒充他人。

還有像是阿聯酋技術創新研究所 (TII) 於今年 3 月發布的 Falcon,因為採用 Apache License 2.0,所以可以用於研究和商業目的;而 Falcon 的其中一個顯著特點就是其訓練所依據的數據集 RefinedWeb,具備廣泛且精心策劃等特性,模型成效表現不俗,最近還推出 180B 版本,能力大幅提升。以及眾所矚目,由 Meta 所發布的 LLaMA,近期也推出 v2 版本,並包含 70 億參數、130 億參數和700 億的模型版本,且可有條件商用。LLaMA 也催生出廣泛的開源生態系統,包括 OpenLlama(Fully-OSS)、Vicuna(Instruction)和 Llama.c(Edge)等項目。

蔡源鴻認為,LLaMA 的開發提供並確認了一些重要的經驗,例如發現 RLHF  (Reinforcement Learning from Human Feedback))才是聊天機器人更貼近人類預期與安全規範的成功關鍵,而非 supervised fine-tuning;更要追求資料的品質;以及在運算資源固定的情況下與特定任務中,小模型加上大資料也可以有不輸大模型的效果,能增進效率且節省後期推論成本。

企業採用開源大語言模型的好處?

開源是一種基於免費取用和可修改軟體原始碼的技術概念,背後的理念是透過協作與持續改 進,讓先進技術和知識得以被民主化  (Democratization)。蔡源鴻認為,開源可以對 LLM 的工作原理以及潛在偏見進行徹底研究,並有助於增加人們對此技術的信任 (Trust)。

蔡源鴻說,若企業使用 ChatGPT 進行開發的話,必須將資料上傳給 OpenAI,但因為過程中無法掌握資料的處理過程,就可能產生資料隱私外洩的重大風險;而企業使用開源大語言模型則對資料有處理彈性且可以管控。他認為,雖然使用 Open LLM 仍有些地方需要考量,如較龐大的基礎設備需求,需要花費較大的初始成本,以及需要專業的 AI 人才協助訓練。但是, 可以使用目標資料,並根據特定需求設計應用,以確保企業或使用者最大程度的資料保護,同時節省後期使用成本,並因其透明度而提升對 AI 信賴的優勢來說,其實是瑕不掩瑜的。此外,開源軟體會吸引許多有著同樣興趣或領域的社群成員,一起激發創意並促進技術的進步。

他認為,Open LLM 除了能為個人開發者、新創企業和中小型企業釋放的潛力,將可重塑 AI 應用和技術的整體格局。同時,也可以防止科技巨頭壟斷,讓全民能參與先進技術與發展。