從深度學習到大語言模型

深度學習訓練AI：像教小朋友學東西

現在的深度學習是數據驅動（Data-Driven）的技術，訓練深度學習模型就像教小朋友學習新知識。最關鍵的步驟是準備教材（數據）來教導小朋友，這些教材通常放在圖書館中（記憶體或硬碟）。

接著，需要準備一個教室（硬體設備）來進行教學，常見的是GPU（圖形處理單元）。GPU是一間設備完善的教室，裡面有較為彈性的工具和資源，讓小朋友可以有效率地學習。

每次訓練AI模型，小朋友會去圖書館搬一些數據，回到教室反覆閱讀數據並嘗試解答，重覆上述過程並且不斷修正小朋友的大腦（模型權重）。當AI模型完成訓練後，就像小朋友畢業，具備了基本回答和解決特定問題的能力。當提出問題時，小朋友能根據所學到的知識來給出回應，這就是AI模型的預測階段。

大語言模型：腦容量巨大的小朋友

大語言模型就像是擁有巨大腦容量的小朋友。當準備了極其龐大的數據，並找到一位擁有巨大腦容量的小朋友（模型尺寸非常大），再準備多間高級的教室（GPU）來進行長時間的訓練，期望這個小朋友變得非常聰明，能同時勝任多項工作。

擁有巨大腦容量的小朋友食量也相對更大，需要消耗更多的電力來支持訓練過程。它需要霸佔大量的教室資源，甚至於同時學習語言、影像、文字、聲音等多項學科，嘗試往通才和博學的道路上越走越遠。這個過程非常耗時耗電，需要長時間的學習和大量的食物才能達到高水平的智力。

完成訓練後，大語言模型能夠處理各種複雜的任務，例如回答問題、生成文字等。像OpenAI的GPT-4和Google的Gemini等大模型都是大家耳熟能詳的例子。

大模型的使用方式：雲端和地端

雲端模式指的是大模型駐點在遠方的高級環境，就像OpenAI的ChatGPT。我們可以通過提問介面或API來向這些遠方的大模型尋求答案，這樣的服務通常需要支付一定的諮詢費，例如按字數收費。使用這種模式方便且不用擔心維運成本，但可能存在隱私的疑慮，因為數據需要送到遠端伺服器上處理。

地端模式則是指為這些大模型準備尊爵不凡的辦公室，這些辦公室就是指GPU等高性能硬體環境，接著邀請願意搬家來住的大模型。像是有些開源的大模型，例如LLaMA，我們可以將它們部署在本地的硬體環境中。在封閉環境下使用較為安全，而且還有機會進一步透過舉辦員工訓練(Fine-Tuning)，讓大模型更加貼近使用者的需求，但需要強大的硬體支持和昂貴的維運成本。

大模型適應新知：RAG和Fine-tuning

假設聘請大模型來當公司的顧問（雲端）或是邀請它來上班（地端），它們不見得具備公司的專業知識，需要讓它們更了解公司文化才能發揮所長。目前常見的主要方式有兩種：

第一種是 Fine-tuning。這就像是準備足夠數量的公司相關專業知識，再次訓練大模型。改變大模型的腦袋需要大量的 GPU 資源及大量電費，更需要資料科學家和 AI 工程師合作進行，是一個非常耗時和昂貴的過程。這個過程可以比作重新培訓一個專業顧問，使其完全融入公司的文化和運作方式。

第二種是 RAG（Retrieval-Augmented Generation）。這種方法就像是將公司的資料整理成員工手冊（向量資料庫），作為知識庫。大模型隨身攜帶這本手冊，遇到問題時翻閱手冊，再來回應問題。這樣大模型不需要改變內部的知識結構，只需查詢相關資料，就能提供專業且準確的回答。這可以比作給顧問提供一本全面的公司手冊，讓他在需要時能快速查閱並提供相應的建議。