生成式 AI 並非橫空出世,那些關鍵的技術突破與發展

自從 ChatGPT 在 2022 年底出現,並掀起一陣 AI 討論熱潮後,隨著各式生成式 AI 工具的出現,除了大眾開始感受到生活與工作方式將逐漸受到影響,各大科技巨頭相繼發表最新模型技術,紛紛投入這場大型語言模型競賽中,包括 Meta 推出 V-JEPA 模型、Google 的 Gemini ,以及 OpenAI 的影片模型 Sora。

2024 年,Google 在 O/I 大會上展示了一段預錄影片,可以看到人們已能透過語音提問與聊天機器人 Project Astra 互動,該機器人還具備了視覺辨識與理解能力,甚至具備空間感知與推理能力。然而,這些能力並不是橫空出世,而是多年的累積與技術突破。本篇文章整理十幾年來幾篇重要的研究報告,讓對技術發展有興趣的讀者,能多了解背後脈絡。

從 1991 年網際網路開始發展,直至搜尋引擎 Google 出現,網路也開始逐漸普及到日常中。而後隨著算力增加、資料不斷累積,2015 年就有許多學者專家已經意識到人工智慧的重要性,而 Big Data 甚至是當時極為熱門的關鍵字,2015年,一篇論文 “A Neural Conversational Model” 的發表,為 LaMDA 打下了概念基礎。

但早在前一年(2014)底,由 Ilya Sutskever, Oriol Vinyals, and Quoc V. Le 等人發表的“Sequence to sequence learning with neural networks”, 則為後來的Transformer 模型奠下基礎。作者之一的 Ilya Sutskever 也就是 OpenAI 的聯合創始人及首席科學家,而 Quoc V. Le 則是 Google Brain 的成員。

Ilya Sutskever, Oriol Vinyals, and Quoc V. Le, “Sequence to sequence learning with neural networks”, NIPS'14 (https://arxiv.org/abs/1409.3215): 此研究引入了編碼器-解碼器框架,使得處理可變長度的輸入和輸出序列變得可行 (如翻譯任務)。這種架構成為後來 Transformer 模型的基礎。

2017 年發表的 “Attention is all you need” ,當中所提出的 Transformer 架構,被視為 BERT 與 GPT-3 等知名模型的基礎,甚至在電腦視覺領域也可看到 Transformer 的蹤影。

Vaswani et al. , “Attention is all you need” (https://arxiv.org/abs/1706.03762 ), 其主要創新點在於完全基於注意力機制(attention mechanism)進行序列建模,而不依賴於傳統的遞歸神經網絡(RNN)或卷積神經網絡(CNN)成為現代所有LLM的核心架構。

2021 年,“Finetuned Language Models Are Zero-Shot Learners” 發表:

Jason Wei et al., “Finetuned Language Models Are Zero-Shot Learners” (https://arxiv.org/abs/2109.01652 ), 此研究提出通過適當的指令微調(或稱作監督式微調)可提高 LLM 零樣本學習的能力,並通過統合的資料集 FLAN 來評估。

2022 年 “LaMDA: Language Models for Dialog Applications” 發表:

Romal Thoppilan et al., “LaMDA: Language Models for Dialog Applications”, (https://arxiv.org/abs/2201.08239): 通過帶有標註數據的微調 (類似監督式微調),以及使模型能夠查詢外部知識源,可以讓人機對話更加自然和連貫,同時提升安全性和事實依據。

2022 年,Google 資深資料科學家紀懷新等人發表 “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”,介紹一種可以提高 LLM 推理能力的新方法:

Jason Wei et al., “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”, (https://arxiv.org/abs/2201.11903 ): 此研究介紹了一種名為「連鎖思維提示」(Chain-of-Thought Prompting)的新方法,可以通過分步展示思考過程來提高LLM的推理能力。

2022年 “PaLM: Scaling Language Modeling with Pathways” 發表,提出新的機器學習架構,提高模型的靈活性和效率。

Aakanksha Chowdhery et al., “PaLM: Scaling Language Modeling with Pathways” (https://arxiv.org/abs/2204.02311 ): 引入了 Pathways 架構,這是一種新的機器學習架構,能夠有效地擴展模型的能力並允許單個模型同時處理多種任務和資料模態,從而提高了模型的靈活性和效率。

2023年,歷經 ChatGPT 熱潮之後, Google  在這一年的 12 月推出了大語言模型(LLM)的重要成果:Gemini,並能根據不同的應用場景對應不同的版本選擇,從最大的 Ultra ,到能放置到終端設備,如手機上使用的 Nano。而研究團隊更是在推理能力、規劃能力和多模態模型上投入許多心力。

面對先進技術的不斷發展,未來如何將這些模型放入產品中;以及如何兼顧政策和技術發展上的平衡都是後續極為重要的難題。