曾繁斌

現任國家原子能科技研究院 助理研究員,負責高階醫材影像演算法研發工作,同時為台灣人工智慧協會理事。

3 篇文章
AI 大模型的硬體瓶頸與探(一):從深度學習到大語言模型
LLM, 技術, 論文快讀

AI 大模型的硬體瓶頸與探(一):從深度學習到大語言模型

深度學習訓練AI:像教小朋友學東西現在的深度學習是數據驅動(Data-Driven)的技術,訓練深度學習模型就像教小朋友學習新知識。最關鍵的步驟是準備教材(數據)來教導小朋友,這些教材通常放在圖書館中(記憶體或硬碟)。 接著,需要準備一個教室(硬體設備)來進行教學,常見的是GPU(圖形處理單元)。GPU是一間設備完善的教室,裡面有較為彈性的工具和資源,讓小朋友可以有效率地學習。 每次訓練AI模型,小朋友會去圖書館搬一些數據,回到教室反覆閱讀數據並嘗試解答,重覆上述過程並且不斷修正小朋友的大腦(模型權重)。當AI模型完成訓練後,就像小朋友畢業,具備了基本回答和解決特定問題的能力。當提出問題時,小朋友能根據所學到的知識來給出回應,這就是AI模型的預測階段。

  • 曾繁斌