LLM

此標籤共有 7 篇文章

AI 大模型的硬體瓶頸與探(一):從深度學習到大語言模型
LLM, 技術, 論文快讀

AI 大模型的硬體瓶頸與探(一):從深度學習到大語言模型

深度學習訓練AI:像教小朋友學東西現在的深度學習是數據驅動(Data-Driven)的技術,訓練深度學習模型就像教小朋友學習新知識。最關鍵的步驟是準備教材(數據)來教導小朋友,這些教材通常放在圖書館中(記憶體或硬碟)。 接著,需要準備一個教室(硬體設備)來進行教學,常見的是GPU(圖形處理單元)。GPU是一間設備完善的教室,裡面有較為彈性的工具和資源,讓小朋友可以有效率地學習。 每次訓練AI模型,小朋友會去圖書館搬一些數據,回到教室反覆閱讀數據並嘗試解答,重覆上述過程並且不斷修正小朋友的大腦(模型權重)。當AI模型完成訓練後,就像小朋友畢業,具備了基本回答和解決特定問題的能力。當提出問題時,小朋友能根據所學到的知識來給出回應,這就是AI模型的預測階段。

  • 曾繁斌
蔡宗翰:算力不足有解,須掌握訓練垂直領域模型的焦點
LLM, 產業案例, 觀點

蔡宗翰:算力不足有解,須掌握訓練垂直領域模型的焦點

社群媒體巨頭 Meta 日前推出迄今為止最大的開源 AI 語言模型 Llama 3.1 405B ,該模型使用了 16,000 個 Nvidia H100 GPU 進行訓練。面對這波模型軍備戰爭,中央大學資工系教授、TAIDE 模型訓練組召集人蔡宗翰認為,台灣即使面臨算力不足的挑戰,仍可以針對台灣本地的需求,訓練垂直領域模型,而當中最重要卻也常被忽略的關鍵在於評估。

  • 楊育青
從大型語言模型了解如何更好的使用 AI 工具
LLM, 實作解析, 技術

從大型語言模型了解如何更好的使用 AI 工具

生成式 AI 的興起帶來了許多便利的工具,從文字、圖像的生成到對話聊天,但你是否好奇為什麼有些人可以產出很好的成品,而自己使用時,卻沒辦法有同樣效果?【AI CAFÉ 線上聽 】特別從生成式 AI 模型的原理出發,了解模型如何解讀指令,將使我們能更有效地使用 AI 工具並生成出滿意的結果。

  • AIF Editor
想打造專屬 ChatGPT ,企業仍要面臨這些具體挑戰
LLM, 人工智慧, 趨勢

想打造專屬 ChatGPT ,企業仍要面臨這些具體挑戰

11月初,除了 Elon Musk 推出以自家大語言模型 Grok-1 打造的聊天機器人「Grok」;AI 趨勢大師李開復也公開旗下公司零一萬物所開發的首款開源大語言模型 Yi-34B 和 Yi-6B;而 OpenAI 更是在首屆開發者大會上公布名為 GPT-4 Turbo 的升級版大型語言模型,以及發表客製化 AI 服務GPTs,針對需求打造客製化 ChatGPT,並在社群上引發討論。

  • 楊育青
中研院繁中大語言模型引熱議 ,企業使用 LLM 該注意哪些事?
LLM, 人工智慧, 趨勢

中研院繁中大語言模型引熱議 ,企業使用 LLM 該注意哪些事?

中研院日前開源釋出了以 Llama 2 開發的繁中大型語言模型 CKIP-Llama-2-7b,並將其放上 Github 等平台,提供學術與商用。由於開放商用,加上強調繁體中文大型語言模型及中研院詞庫小組等名稱加持,讓許多人對該模型的能力有所期待,沒想到卻被使用者反應,模型所回應的內容不夠本土化,甚至可能觸發兩岸敏感神經,因而引發熱議。

  • 楊育青