自 ChatGPT 推出至今,不少企業也開始嘗試將生成式 AI 模型應用於改善工作效率或提供客戶服務。然而,這類大型語言模型的部署並不容易,隨著模型規模的增長,儲存和計算需求也相對提高。例如:以GPT-175模型需要約350GB的儲存空間(Floot16 precision),並且在推理和運算時,也需要同等大小的記憶體。若要有效運行模型,至少需要五個A100級別的GPU,其中每個GPU具有80GB的記憶體。顯示大型語言模型在部署時,面臨參數量大、速度慢且計算複雜度高等挑戰。此外,若需要在移動端或邊緣設備上進行多模型部署,更是增加了複雜度。