論文快讀 - 知勢 - 提供AI新知與觀點的媒體

LLM, 論文快讀, 技術

AI大模型的硬體瓶頸與探討（三）：硬體瓶頸的四大延伸討論

硬體成本是大模型運用時必須面對的挑戰，本篇文章將從電腦架構演變、成本與耗電、硬體卸載、端雲共生等四大面向切入，探討各自發展的可能。

LLM, 論文快讀, 技術

AI大模型的硬體瓶頸與探討（二）：無論雲端還是地端，始終面臨的問題

接續上一篇「從深度學習到大語言模型」，介紹了語言模型的發展與使用方式後，這一篇將探討大模型在落地上，可能會遇到的硬體問題，以及目前發展出的克服方法。

LLM, 技術, 論文快讀

AI 大模型的硬體瓶頸與探（一）：從深度學習到大語言模型

深度學習訓練AI：像教小朋友學東西現在的深度學習是數據驅動（Data-Driven）的技術，訓練深度學習模型就像教小朋友學習新知識。最關鍵的步驟是準備教材（數據）來教導小朋友，這些教材通常放在圖書館中（記憶體或硬碟）。接著，需要準備一個教室（硬體設備）來進行教學，常見的是GPU（圖形處理單元）。GPU是一間設備完善的教室，裡面有較為彈性的工具和資源，讓小朋友可以有效率地學習。每次訓練AI模型，小朋友會去圖書館搬一些數據，回到教室反覆閱讀數據並嘗試解答，重覆上述過程並且不斷修正小朋友的大腦（模型權重）。當AI模型完成訓練後，就像小朋友畢業，具備了基本回答和解決特定問題的能力。當提出問題時，小朋友能根據所學到的知識來給出回應，這就是AI模型的預測階段。

生成式AI, 論文快讀, 技術

生成式 AI 並非橫空出世，那些關鍵的技術突破與發展

自從 ChatGPT 在 2022 年底出現，並掀起一陣 AI 討論熱潮後，隨著各式生成式 AI 工具的出現，除了大眾開始感受到生活與工作方式將逐漸受到影響，各大科技巨頭相繼發表最新模型技術，紛紛投入這場大型語言模型競賽中，包括 Meta 推出 V-JEPA 模型、Google 的 Gemini ，以及 OpenAI 的影片模型 Sora。

論文快讀, 技術

優化結構以減少運算量，YOLO v10 實現端到端即時物件偵測的目標

YOLO（You Only Look Once）是一種即時物件偵測系統，自2015年首次提出以來，已經在電腦視覺領域引起了廣泛關注。這項技術的主要創新在於其高效、快速的物件偵測方法，使其在實際應用上都佔有一個重要的地位。在每一代 yolo 的發展都是在即時性與精確度上進行討論。

論文快讀, 技術

讓 LLM 更好用的方法：ReAct prompting

自從生成式 AI 興起後，怎麼下 prompt 也成為熱門話題，prompt engineering 更成為新的研究領域。本文將專注於對 LLM prompt engineering 的探討，並介紹當前主流的 ReAct prompting。

論文快讀, 技術

當 LLM 的觸角延伸到表格資料，有機會一統江湖嗎？

表格資料（Tabular data）是關鍵的機器學習資料。儘管傳統機器學習方法如梯度提升樹（包含知名的 LightGBM 以及 XGBoost）在這方面表現突出，但大型語言模型（LLM）的興起帶來了新的挑戰與機會。本文探討 LLM 如何在未直接接觸資料的情況下分類表格資料，並分析「TabLLM」項目的創新方法和成果。

技術, 論文快讀

圖片「全域特徵」與「局部特徵」我都想要！有效整合的方法介紹

本文旨在尋找一種方法，能有效地結合局部與全域特徵，提供模型更全面的資訊。為此，我們將介紹一種專門設計來整合這兩種特徵的新型 CNN 模型，稱為 Global Local Mixture Network（GLMNet）。

技術, 論文快讀

Mini DALL·E3：透過對話繪製圖片

DALL·E3 是 OpenAI 在2023年10月發布的圖像生成模型，不過，使用者僅能利用咒語與參數調整，才能繪製出滿意的圖片，在使用的自由度上大幅受限。為此，有研究者提出名為 Mini DALL·E3 的模型，近一步說明這一類利用自然語言處理跟圖像生成模型的架構，讓使用者後續能更有效的應用並生成出貼近想法的圖片