聯邦學習是什麼?近來備受討論的機器學習技術介紹

人工智慧技術的進步,帶來了更多便利的應用,對於人類的影響也越來越多。隨著資安及隱私議題逐漸受到重視,聯邦學習是近來提到隱私保護時,備受討論與關注的機器學習技術,但具體實踐方式,包括理論知識仍在不斷的完善與豐富中,加上相關應用時,新的挑戰與解決方案也會陸續產生,例如資料共用的過程中,資料所有權的確認、資料權利邊界劃分、權益分配規則不清晰,以及資料安全沒有保障等,都是亟待解決的問題。

《不再理論化:聯邦學習親自動手工程專案實作》一書中,在闡述基礎原理的同時,也提供了落地應用實踐時的描述,以中國金融場景的商業應用為例,詳實描述具體實踐的過程,為初接觸聯邦學習的讀者提供了大致的輪廓。本書中的提到資料交易與共用的概念與做法,也可為國內在聯邦學習的實際應用提供參考。以下為本書精彩節錄:


以聯邦學習為基礎的資料要素交易

資料要素交易的背景與現狀

資料已經被認定為基礎性戰略資源和關鍵生產要素,是經濟社會發展的基礎性資源,也是新一輪科技創新的引擎。數位化轉型是促進產業升級的關鍵因素,而要實現數位化轉型,一個很重要的方面就是要實現資料資產的最佳化設定。然而,目前普遍存在的資料分佈不均衡和「資料孤島」問題,直接導致資料的巨大價值無法充分表現。

以這樣的情況,就自然而然地孕育了資料共用的巨大市場需求。當然,資料共用不是一蹴而就的。在資料共用的過程中,還有很多問題待解決,包括資料所有權確認、資料權利邊界劃分、權益分配規則不清晰,以及資料安全沒有保障等。制定合理的資料共用規範、利用技術手段確保資料安全、解決資料所有權確認和使用邊界等問題,對於推動資料合法符合規範共用、金融產業高效和高品質發展,具有重要的現實意義。

資料共用的原動力是資料價值,既然涉及價值,就必然使共用過程伴隨著資料作為要素的定價和交易過程。這樣的定價和交易是實現資料共用的一種重要的模式,目前已經出現了數十家資料交易平台。

從一些中國影響力較大的資料交易平台(下圖),可以看出,當前的資料交易平台主要有第三方資料交易平台和綜合資料服務平台兩種類型。其中,第三方資料交易平台主要提供資料資產的交易、查詢和需求發佈等服務。綜合資料服務平台在這些服務之外,還常常提供一些資料探勘建模和模型線上運行等技術服務。資料交易平台的資料來源和領域覆蓋得也比較廣,資料來源包括政府公開的資料、資料提供方提供的資料、企業內部資料、網頁爬蟲資料、網際網路開放資料等,領域包括政務、經濟、交通、通訊、商業、農業、工業、環境、醫療等。提供資料服務或產品的 方式有 API、資料套件、資料產品、資料訂製服務、解決方案等。  

中國影響力較大的資料交易平台

以聯邦學習為基礎的資料要素交易


這些資料交易平台在一定程度上促進了資料的有效流通,為資料需求方和提供方提供了互動平台。隨著資料安全和個人資訊保護方面監管日趨嚴格,資料交易平台面臨著全新的外部環境,需要透過新技術和新方法實現「資料可用不可見,資料不動價值動」,提升資料安全性,明確責任和權益,從而建構支持跨機構、跨市場、跨領域的資料安全共用的新模式。

以聯邦學習為基礎的交易機制建構

聯邦學習提供了資料不出所有方域、資料聯合進行模型訓練、資料價值聯合創造的解決方案。前一段落介紹了在聯邦學習框架下,度量資料貢獻度的方法。在此基礎上,可以嘗試建構新型的資料交易機制,進而建構新型的資料要素交易平台。

任何產品和資產要想進入交易環節,首要的問題都是如何制定定價策略,對資料的交易也必須解決這一問題。根據產品類型的不同,只有選擇一種合理的定價方式,才能降低交易成本,促成交易實現,從而提升平台的交易量。定價理論的實踐應用是非常複雜的。在資料資產市場中,這個問題會變得更為複雜,因其定價變數較多,定價策略較難選擇。

按照傳統資產的定價想法,如果有同類產品,那麼最常用的方式是利用市場定價法,參考市場上同類產品的價格。如果沒有參照產品,那麼按照其所創造的價值評估。但資料資產不同於傳統的實物資產,其帶來的商業價值(舉例來說,節省成本、帶來收益、安全方面)很難衡量,並且同一份資料在不同的企業、不同的業務場景中差別可能非常大,但並不是只有充分市場化的資產才能定價。在資料要素交易的起步階段,最初的定價方式不要求完美,只要能夠為資料提供方找到簡單的設定資產定價、快速出售且有利可圖的方式,這就已經是可以接受的方式。

在傳統資產交易定價的場景中,常見的定價方法包括成本與利潤定價法、收益定價法、市場定價法、協定定價法、平台固定定價法和競拍定價法等。在聯邦學習框架下,以貢獻度為基礎的資料價值計算方法為收益定價法提供了技術基礎。但是資料作為要素產品,有自身的特殊性,還需要結合交易模式一起設計定價方法。

區塊鏈技術近年來受到廣泛關注,被嘗試用來建構各種新型的與交易相關的平台。下圖展示了一種以智慧合約為基礎的資料交易流程。以 API 服務類的資料要素產品為例,使用者在平台上用積分通證購買資料資產,以區塊鏈為基礎的智慧合約會凍結使用者的積分通證,同時提供資料資產使用權限。資料資產已經過智慧合約驗證,對相關資訊上鏈存證。在這個實例中,在使用者使用 API 服務的過程中,智慧合約會自動統計對應的 API 存取量,在使用者存取 API 並成功回呼時,智慧合約會按交易雙方都接受的計量方式,自動轉移使用者的憑證,從而達到交易即清算、清算即交割的目的。

圖 5-2-1 一種以智慧合約為基礎的資料交易流程(圖片提供:深智數位)

我們可以結合這樣的交易機制,設計實現資料資產交割的雙向交割機制,即賣方交割資料資產,同步凍結、交割買方的積分資產。之後,智慧合約會根據數位簽章檢測交易者的身份資訊,再根據鏈上記錄的資產資訊檢測其有效性。不同資料資產的交割也可以選擇不同的模式。資料產品的交割,一般主要透過使用者按照符合服務提供方要求的輸入格式呼叫 API,服務提供方輸出對應的呼叫結果。來源資料的交割一般與模型一起進行,因為來源資料以資料價值的模式進行交易,而資料的價值是透過建模表現的,所以使用者在選擇某個或某幾個來源資料時,會對應地選擇需要的模型進行建模,以一種交割即開始訓練的形式進行。訓練過程是以聯邦框架實現為基礎的,聯邦學習以分散式機器學習的模式,可以支援多個資料提供方在資料不出各自域的情況下進行建模。在聯邦機制下,利用隱私安全計算技術,各參與方的資料不發生轉移,所以不存在影響資料規範的風險,也以有效的資訊安全方式保證使用者隱私不被洩露。聯邦學習是一種在保護資料隱私、滿足合法符合規範的要求下解決「資料孤島」問題的有效措施。

資料共用已經引起各企業和政府的重視。實現跨部門、跨政府和企業間的資料共用對政府推動資料治理系統建設和實現數位經濟發展具有重要的意義。另外,資料共用可以為企業降低經營成本,帶來更多利益,且可以產生更多的商業模式和孵化更多具有競爭力的產品。新型的以區塊鏈技術和聯邦學習為基礎的資料要素交易機制和平台,把資料共用以介面服務和模型訓練的模式進行,並且克服了現有資料共用中可交易資料有限、隱私安全、溯源困難等問題。同時,這類資料要素交易機制和平台也為敏感性資料和嚴監管資料的共用提供了途徑,以滿足可監管、可稽核的要求。

本文節錄自《不再理論化:聯邦學習親自動手工程專案實作》,由深智數位授權轉載。