
最近,AI 界最受關注的話題之一,莫過於 DeepSeek-R1 這款推理模型 (Reasoning Model)。與傳統大語言模型 (Large Language Model, LLM) 不同,推理模型在回答問題時,會包含 「思考」或「推理」過程,使其更適合處理複雜任務 (無法一步到位),例如數學解題、程式競賽問題,甚至邏輯推理。因此,如摘要、翻譯或基於知識的較簡單問答,並不需要使用推理模型。但隨著 R1 的熱度飆升,也有不少人們開始反思:這是否真的代表了推理模型的突破?還是說,還有其他更高效的方式能達成類似效果?
為何大家這麼著迷 DeepSeek R1?
傳統上,開發一個尖端 LLM 往往需要數億美元的投資與龐大的計算資源,但 DeepSeek 團隊宣稱,僅用不到 600 萬美元[1],就訓練出可媲美 OpenAI o1 的推理能力,且所需 GPU 只是競爭對手的 1/10。這顛覆了「算力為王」的傳統觀念,令市場大跌眼鏡,從而對矽谷傳統的巨額投資模式提出了質疑。同時,這也讓許多人開始重新思考推理模型的訓練方法。
值得注意的是,DeepSeek 其實並非只推出了一個 R1 模型,而是發表了三個版本[2]:
- DeepSeek-R1-Zero:在 DeepSeek-V3 Base Model 上,完全依靠強化學習 (Reinforcement Learning, RL) 訓練,不使用監督微調 (Supervised Fine-Tuning, SFT)。
- DeepSeek-R1 (旗艦版):在 RL 訓練後,進一步微調與對齊,使推理能力更穩定。
- DeepSeek-R1-Distill (瘦身版):用知識蒸餾技術減少模型規模,提高推理效率。
其中最受矚目的,是 R1-Zero 在沒有 SFT 的情況下,竟然「湧現」了推理能力,這是否代表 AI 真的「頓悟」了?
關鍵技術:RL 產生推理能力
DeepSeek-R1-Zero 採用 純 RL 訓練,並利用分組相對策略優化 (GRPO) 算法,透過兩類獎勵來強化推理行為:
- 準確性獎勵:透過單元測試 (程式碼)、數學答案驗證等方式,自動評估回應正確性。
- 格式獎勵:要求模型將推理步驟放入預定標籤內,以確保輸出結構一致。
這使得 R1-Zero 即便沒有經過監督式微調,也能學會以類似 Chain-of-Thought(CoT)的方法進行推理。這種「湧現推理」現象,讓許多研究者驚嘆,也導致更多人投入復現驗證與另闢蹊徑的研究工作。
但真的「頓悟」了嗎?其他研究怎麼說?
在 R1 推出後,不管是學界或業界也正在高速探索是否能用更少的資源來激發推理能力,並提出了幾種新的方案。
首先是 Stanford 李飛飛教授與合作者提出的 Simple Test‐time Scaling 方法[3],其核心思想是「與其花費大量資源訓練推理能力,不如在推論階段調整計算策略」。他們的方法是先用 1K 精選數據進行監督微調,訓練基本推理能力。然後在推論預測時透過 budget forcing 技術,調整推理步驟長度,讓模型在解題時進行更多檢查與修正。這表明,推理能力未必只能靠大量訓練獲得,推論階段的計算擴展同樣能提升表現。
其次是上海交大等提出的 LIMO (Less is More for Reasoning) 理論[4],該理論挑戰了「數據越多越好」的傳統觀念。他們發現,現代 LLM 其實已經內建大量數學與推理知識,所以只需“少量”「高品質推理數據」(817 筆示例) 進行微調,就能顯著激發推理能力。這種方法不僅降低數據成本,還能讓相對較小的模型 (例如 32B 參數量) 發揮更強效能,華麗轉身成為推理模型。
還有 MIT 等研究人員提出的 RLSP (Reinforcement Learning via Self-Play) 框架[5],是一種後訓練技術讓 LLM 具備更強的推理能力,使其轉變為推理模型。其核心假說是「將推理視為一種導引式的搜尋」,可以透過 RL 來獎勵模型探索不同的推理路徑、自我對弈產生新的 CoT 數據並結合答案準確性的獎勵來達成更高品質的推理輸出。
最後,來自新加坡的研究團隊則對 R1-Zero 的「推理湧現」提出質疑[6]。他們指出許多所謂的「自我反思」行為,其實是 Base Model 早已存在的“膚淺自我反思”行為,並非純 RL 訓練後才產生。換句話說,「頓悟」時刻出現的反思字眼未必代表真正的認知突破,而可能僅是 RL 獎勵函數的引導下延長回答長度,而不是真正學會推理。這部分解釋了為什麼許多 R1-Zero 的開源復現版本,都是基於 Qwen2.5,因為 Qwen2.5 本來就擅長產生「看起來像反思」的內容。
結論:降本增效是趨勢,但 R1 真的革命了嗎?
綜合這些研究,我們可以觀察到幾個關鍵趨勢:
- 推理能力的提升,未必需要高昂的算力與海量數據。
- 少量高質數據(<1000 筆)+ 具初步推理能力的 Base Model,已能激發更強推理表現。
- 精心設計的後訓練 RL 也能幫助激發推理能力。
- 推論階段的計算擴展 (如 budget forcing),也是提升推理能力的關鍵策略。
那麼,DeepSeek-R1 真的代表推理能力的新時代嗎?還是它只是一種 「投資更少、但效果不錯」的折衷方案?目前的實驗仍多集中於數學推理,能否擴展到更廣泛的 AI 任務,仍待進一步驗證。
因此,在瘋狂複製 R1 之前,我們或許該保持開放心態,繼續觀察接下來的發展,看看是否還有更高效、更穩健的方案等待被發掘。
嚴格來說,是指開發 DeepSeek-V3 Base Model 的費用。 ↩︎
“DeepSeek-R1: Incentivizing Reasoning Capablility in LLMs via Reinforcement Learning”, https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf ↩︎
Niklas Muennighoff et al., “s1: Simple test-time scaling”, arXix:2501.19393 (2025). ↩︎
Yixin Ye et al., “LIMO: Less is More for Reasoning”, arXix:2502.03387 (2025). ↩︎
Guanghao Ye et al., “On the Emergence of Thinking in LLMs I: Searching for the Right Intuition”, arXix:2502.06773 (2025). ↩︎
Zichen Liu et al., “There May Not be Aha Moment in R1-Zero-like Training — A Pilot Study”, https://oatllm.notion.site/oat-zero. ↩︎