一個AI專案包含了資料處理、模型開發、驗證到部署上線等階段,形成了一個週期性的工作流程,當中所要考量的因素非常多,包括成員人數、資源分配、模型維護等,面對這些挑戰,有沒有哪些工具可以協助企業,在發展 AI 專案時,能更有效率的控制流程?
機器學習(Machine Learning )在企業中面臨的挑戰
HPE 技術規劃處資訊系統技術經理楊秦怡認為,企業的 AI 專案開發,通常是為了部署上線並達到開發目的,過程中受先會遇到的就是規模問題,也就是參與專案的多位成員在開發階段的資源分配,例如訓練時將會使用到多少資源,對於後續的部署是否會產生影響等。其次,則是模型訓練過程中的資料版本控管問題,隨著資料越來越多,除了版本控管、來源追蹤,以及儲存空間的問題需要解決。
整個開發的週期中,每個部分都有不同工具可以選擇使用。但是在不同的架構中,再加上參與成員的使用習慣並不一定相同,也就成了專案開發的重要議題。
HPE Ezmeral ML Ops 如何解決ML在企業的挑戰
楊秦怡提到,近期企業開始注意到雲端的議題,在規劃解決方案時,除了本地機房的建置之外,雲端服務也慢慢成為考慮的選項;而 ML Ops 也能支援地端、雲端及混合雲的應用。
HPE Ezmeral ML Ops 主要是從企業角度出發,協助管理專案中可能遇到的大小問題。除了能支援較大的專案規模,並透過 Container 的方式,以提供使用上的彈性,其所提供整合管理平台,更能幫助使用者在模型建立、訓練、部署,及維護等 AI 專案中的四大重要事項,進行流程與使用工具的管理。
在企業的 AI 專案中,成員的資源分配也是常見問題,此外,還包括當有很多資源(resource)要分配時,該如何建立叢集(Create Cluster),以及模型部署上線後,要是服務量增加的話,該怎麼放大或縮小。更重要的是,要能協同運作。
此外,資安風險的控制也是企業十分在意的點。因此,包括在模型使用資料的來源與追蹤,以及溯源的管理都是 ML Ops 的操作重點。
ML Ops 主要就是協助專案團隊進行生命週期管理,藉由標準化程序、Security 的控管 、Governance,以及平台的管理協助企業克服機器學習落地時,所會產生的挑戰。
更多詳盡的實務操作,請參考【AI CAFÉ 線上聽】MLOps展示 - 以 HPE Ezmeral ML Ops 為例。