曾繁斌 - 知勢 - 提供AI新知與觀點的媒體

LLM, 論文快讀, 技術

AI大模型的硬體瓶頸與探討（三）：硬體瓶頸的四大延伸討論

硬體成本是大模型運用時必須面對的挑戰，本篇文章將從電腦架構演變、成本與耗電、硬體卸載、端雲共生等四大面向切入，探討各自發展的可能。

LLM, 論文快讀, 技術

AI大模型的硬體瓶頸與探討（二）：無論雲端還是地端，始終面臨的問題

接續上一篇「從深度學習到大語言模型」，介紹了語言模型的發展與使用方式後，這一篇將探討大模型在落地上，可能會遇到的硬體問題，以及目前發展出的克服方法。

LLM, 技術, 論文快讀

AI 大模型的硬體瓶頸與探（一）：從深度學習到大語言模型

深度學習訓練AI：像教小朋友學東西現在的深度學習是數據驅動（Data-Driven）的技術，訓練深度學習模型就像教小朋友學習新知識。最關鍵的步驟是準備教材（數據）來教導小朋友，這些教材通常放在圖書館中（記憶體或硬碟）。接著，需要準備一個教室（硬體設備）來進行教學，常見的是GPU（圖形處理單元）。GPU是一間設備完善的教室，裡面有較為彈性的工具和資源，讓小朋友可以有效率地學習。每次訓練AI模型，小朋友會去圖書館搬一些數據，回到教室反覆閱讀數據並嘗試解答，重覆上述過程並且不斷修正小朋友的大腦（模型權重）。當AI模型完成訓練後，就像小朋友畢業，具備了基本回答和解決特定問題的能力。當提出問題時，小朋友能根據所學到的知識來給出回應，這就是AI模型的預測階段。