AI 大模型的硬體瓶頸與探(一):從深度學習到大語言模型

深度學習訓練AI:像教小朋友學東西

現在的深度學習是數據驅動(Data-Driven)的技術,訓練深度學習模型就像教小朋友學習新知識。最關鍵的步驟是準備教材(數據)來教導小朋友,這些教材通常放在圖書館中(記憶體或硬碟)。

接著,需要準備一個教室(硬體設備)來進行教學,常見的是GPU(圖形處理單元)。GPU是一間設備完善的教室,裡面有較為彈性的工具和資源,讓小朋友可以有效率地學習。

每次訓練AI模型,小朋友會去圖書館搬一些數據,回到教室反覆閱讀數據並嘗試解答,重覆上述過程並且不斷修正小朋友的大腦(模型權重)。當AI模型完成訓練後,就像小朋友畢業,具備了基本回答和解決特定問題的能力。當提出問題時,小朋友能根據所學到的知識來給出回應,這就是AI模型的預測階段。

大語言模型:腦容量巨大的小朋友

大語言模型就像是擁有巨大腦容量的小朋友。當準備了極其龐大的數據,並找到一位擁有巨大腦容量的小朋友(模型尺寸非常大),再準備多間高級的教室(GPU)來進行長時間的訓練,期望這個小朋友變得非常聰明,能同時勝任多項工作。

擁有巨大腦容量的小朋友食量也相對更大,需要消耗更多的電力來支持訓練過程。它需要霸佔大量的教室資源,甚至於同時學習語言、影像、文字、聲音等多項學科,嘗試往通才和博學的道路上越走越遠。這個過程非常耗時耗電,需要長時間的學習和大量的食物才能達到高水平的智力。

完成訓練後,大語言模型能夠處理各種複雜的任務,例如回答問題、生成文字等。像OpenAI的GPT-4和Google的Gemini等大模型都是大家耳熟能詳的例子。

大模型的使用方式:雲端和地端

雲端模式指的是大模型駐點在遠方的高級環境,就像OpenAI的ChatGPT。我們可以通過提問介面或API來向這些遠方的大模型尋求答案,這樣的服務通常需要支付一定的諮詢費,例如按字數收費。使用這種模式方便且不用擔心維運成本,但可能存在隱私的疑慮,因為數據需要送到遠端伺服器上處理。

地端模式則是指為這些大模型準備尊爵不凡的辦公室,這些辦公室就是指GPU等高性能硬體環境,接著邀請願意搬家來住的大模型。像是有些開源的大模型,例如LLaMA,我們可以將它們部署在本地的硬體環境中。在封閉環境下使用較為安全,而且還有機會進一步透過舉辦員工訓練(Fine-Tuning),讓大模型更加貼近使用者的需求,但需要強大的硬體支持和昂貴的維運成本。

大模型適應新知:RAG和Fine-tuning

假設聘請大模型來當公司的顧問(雲端)或是邀請它來上班(地端),它們不見得具備公司的專業知識,需要讓它們更了解公司文化才能發揮所長。目前常見的主要方式有兩種:

第一種是 Fine-tuning。這就像是準備足夠數量的公司相關專業知識,再次訓練大模型。改變大模型的腦袋需要大量的 GPU 資源及大量電費,更需要資料科學家和 AI 工程師合作進行,是一個非常耗時和昂貴的過程。這個過程可以比作重新培訓一個專業顧問,使其完全融入公司的文化和運作方式。

第二種是 RAG(Retrieval-Augmented Generation)。這種方法就像是將公司的資料整理成員工手冊(向量資料庫),作為知識庫。大模型隨身攜帶這本手冊,遇到問題時翻閱手冊,再來回應問題。這樣大模型不需要改變內部的知識結構,只需查詢相關資料,就能提供專業且準確的回答。這可以比作給顧問提供一本全面的公司手冊,讓他在需要時能快速查閱並提供相應的建議。