AI大模型的硬體瓶頸與探討（三）硬體瓶頸的四大延伸討論

硬體成本是大模型運用時必須面對的挑戰，本篇文章將從電腦架構演變、成本與耗電、硬體卸載、端雲共生等四大面向切入，探討各自發展的可能。

文章回顧：
- AI 大模型的硬體瓶頸與探討（一）：從深度學習到大語言模型
 - AI 大模型的硬體瓶頸與探討（二）：無論雲端還是地端，始終面臨的問題

關於大模型硬體瓶頸的延伸討論(一)：電腦架構的演變

電腦 CPU 就像是每項能力都具備的員工，當電腦開機時員工（CPU）會開始工作，並把常用的數據從倉庫（硬碟）取出，放在辦公室的櫃子（記憶體）裡，再將最常用的數據拿到辦公桌上（快取記憶體），根據需求完成各式各樣的任務。隨著電腦時代的發展，多核心處理變成多個CPU一起合作，就像是多個員工在同一個辦公室協同工作。

早期的 GPU 卡是專門進行繪圖運算的硬體設備。相比於一個十項全能的 CPU，一個 GPU 比較像是大量家庭代工，擅長一口氣進行大量的向量計算。NVIDIA 後來推出 CUDA，使得各種程式開發者都能透過 CUDA 來操作 GPU，隨著深度學習的興起，由於深度學習有很大部份需要大量向量計算，加上 CUDA 在開發上的便利性，GPU 的這種超能力變得非常受歡迎。

現今的電腦架構結合數據驅動與 AI 模型，導致大模型住進 GPU 卡並霸佔大量的向量計算設備。當模型開始工作時，需要將數據從辦公桌（快取記憶體）、辦公室（記憶體）或倉庫（硬碟）搬運到隔壁的 GPU 卡裡，讓大模型使用 GPU 卡做出正確推論，再與 CPU 一同協作，加上多核心與網路協作時代，資料的傳輸和交換成為 AI 模型的硬體計算瓶頸。

近期出現了一種專門為神經網路設計的處理單元：NPU（Neural Processing Unit），它是為了處理深度學習運算任務而生。2024 年 AI PC 熱潮可以看到各種新型的設計，例如將 NPU 放置在 CPU 旁邊來降低傳輸延遲（將 NPU 和 CPU 一起放在辦公室，不另外租用隔壁的 GPU），或是將 NPU 放置在 GPU 中來降低 GPU 的功耗（由 NPU 來承擔更多深度學習的責任）等，加上原有的 FPGA（Field-Programmable Gate Array）和 ASIC（Application-Specific Integrated Circuit）技術和生態系，將會催生出新的架構，使得 CPU、記憶體、GPU (或其他深度學習運算單元)、硬碟(或其他儲存數據的設施)、AI 模型與數據的協作更為流暢。

關於大模型硬體瓶頸的延伸討論(二)：高成本和高耗電

每次計算時大模型的運算成本高昂且耗電量巨大，但實務上大模型能夠分成不同的區塊，每個區塊專門處理特定類型的任務。例如一個區塊專門負責數學計算，另一個區塊負責物理模擬，更上位的還可以設置一個 PM（專案經理）來決定哪個問題應該由哪個區塊來解答，或是哪些區塊應該共同討論。該架構具體可參考 Mixture of Experts，透過不同專家的子模型來處理特定的輸入，從而提高計算效率和精度，避免讓所有神經元參與每次計算。

其他像是脈衝神經網路（Spiking Neural Networks, SNNs），是一種受到生物神經系統啟發的神經網路模型，SNNs 只在神經元觸發脈衝時進行計算，以及利用量子位元（qubits）進行計算的量子計算，都是現在正在發展中的技術，可望未來有機會在不影響性能的前提下，降低大模型的運算成本。

關於大模型硬體瓶頸的延伸討論(三)：硬體卸載(Hardware Offloading)

電腦系統會將常用的數據放在辦公室的櫃子（記憶體）裡，並將最常用的數據拿到辦公桌上（快取記憶體），降低員工（CPU）去從倉庫（硬碟）拿的時間，在計算機架構裡會有一系列的演算法來作程序上的優化，決定誰放在哪裡可以增加效率。

現在大模型多出大量神經元（模型權重）和深度學習設備（GPU），有時在硬體資源有限時，或是需要由 CPU 負責部份任務，部份的神經元會放置在記憶體中，如何在不同存儲設備之間動態轉移數據（可能會付出更多傳輸成本），是大模型高效運行的關鍵。

一種作法是硬體卸載（Hardware Offloading），將大語言模型中暫時不需要的部份從速度較快的 GPU 轉移到速度較慢但容量更大的儲存設備，例如記憶體或硬碟，當這些數據再次需要時，再將它們重新放回 GPU（或是預測未來有很大可能被使用到，提前進行載入）。這是一個在模型權重、推理輸入、中間運算結果和傳輸成本之間取捨與分配的優化問題，優化問題自然能使用機器學習方式來求得有效的卸載策略，這樣做可以讓大模型在記憶體受限的 GPU 上更有效地運行。

關於大模型硬體瓶頸的延伸討論(四)：端雲共生(Edge-Cloud Collaborative)

大模型實際落地的硬體瓶頸有另一種常見的解法，地端設備（如智能手機、物聯網設備等）通常資源有限，但能夠部署較小的特化模型。這些特化模型負責簡單的任務或專一性的任務，回應速度更快（低延遲），並且能夠保護敏感資料。隨後將通用大模型放置在雲端，由特化模型與雲端大模型進行協作。當地端設備需要進行更複雜的任務，系統可以將這些請求發送到雲端的大模型中處理。

這些架構能進一步跟連續學習（Continuous Learning）結合，特化模型可以根據使用者的操作和反饋，不斷更新和優化，或是建立動態更新的知識庫，來打造個人AI助理，並且避開大模型重新訓練成本高昂的問題。