隨著資料價值逐漸受到重視,數據已經成為驅動現代經濟成長的關鍵,據估計,每一天約有上千億的資料產生,並且有許多人沒有注意到自己的資料已被售出。對企業及個人而言,這股快速成長的數據經濟已帶來更多前所未有的挑戰,包括個人隱私的保護以及機密性資料的使用。
加州大學柏克萊分校電機工程及電腦科學系教授、Oasis Labs創辦人Dawn Song指出,雖然許多資料都是經過匿名處理才被售出,但是匿名化並不足以保護個人的隱私。科技的進步加速對資料的需求,因此,我們更迫切的需要建立一個可信賴的數據經濟框架。
過往的技術已經無法保護個人隱私
什麼是可信賴的數據經濟?又必須具備哪些原則及目標?Dawn Song認為,首先,必須最大化資料對於個人、組織、政府及社會的效用;其次,為了避免資料被濫用或誤用,需要建立或執行數據的權利以做為數據經濟的基礎。再者,資料所創造的價值要能被公平的分配。
Dawn Song表示,建立一個可信賴的數據經濟是件複雜的事情,一方面我們希望能盡量獲取大量的資料,但一方面又必須保護敏感資料與個人隱私。而且以本質來說,資料不具敵對性(non-rival),亦即不同的網路服務業者可以透過不同的管道得到同一位使用者的資訊,但是,資料如何被應用這件事卻無法被輕易監控。所以,為了建立可信賴的數據經濟,除了透過技術協助之外,也需要給予數據提供者適當的獎勵機制。最後,則是建立一個能支持數據經濟的法律框架。
Dawn Song提到,即使資料經過匿名處理對於個人隱私的保護也有限,有心人士依然可以透過不同方式取得機密資料,且資料一旦被複製,資料所有者就喪失了這些資料的主控權。因此,我們需要發展新技術以因應相關需求。目前在產業界,是否已有相關的技術支援了呢?Dawn Song提到,相關的技術包括如安全硬體、安全多方計算(Secure Muti-party Computation,MPC)、全同態加密(FHE)等Secure computing、差分隱私、聯邦學習,及分散式賬本(Distributed ledger)。
Secure computing的主要目標是確保運算過程中,敏感資料不會被洩漏。透過全同態加密等方法,即使沒有看到原始資料,依然能進行訓練任務。雖然這些技術在過去幾年中已有進步,但若要在龐大資料的狀況下應用,就必須花費更長的時間。另一方面,目前許多國際廠牌如ARM、Intel、Nvidia、AMD等都有開發出安全硬體的解決方案,只是這些方案多半不對外公開。所以,Dawn Song的研究團隊提供了開源解決方案以加速發展。
Dawn Song也提醒,除了資料的處理,我們也需要特別注意運算結果的輸出是否會洩漏個人的敏感資訊?對此,差分隱私就是一個可以使用的技術;而聯邦學習則可以讓使用者在保有自己資料的情況下進行訓練,得出訓練後的個人模型權重後再統整到雲端上,成為一個通用的大模型。分散式帳本則保障了用戶的資訊不會被更改。Dawn Song認為,上述的這數種技術將發展出一種新的數據資產。
至於針對數據提供者要如何創造一個獎勵機制呢?Dawn Song表示,目前數據的價值還無法有效評估,或許應該根據任務的完成與否來判斷,且其價值需要被累積,若數據間彼此有關聯性且價值也應被公平反映。因此,她提到可以藉由美國洛杉磯加州大學教授羅伊德·夏普利(Lloyd Shapley)所提出的夏普利值(Shapley value )幫助數據提供者進行利潤分配。
什麼是數據權?誰可以選擇數據?
隨著大眾對於個人隱私的關注度越來越高,各個國家也都提出不同的隱私保護法規,但Dawn Song認為,「什麼是數據權?誰可以選擇數據?」依然是十分重要的挑戰。她表示,數據雖然在對抗疫情上有著極大的幫助,包括接觸者追蹤、藥物開發,以及診斷醫療保護等,但我們依然要特別注意敏感資料的處理,以及夾雜在其中的隱私問題。更重要的是,我們已經意識到敏感資料帶來的挑戰,如果未能妥善因應,勢必會成為數位時代經濟成長的阻礙。因此,建立可信賴的數據經濟框架是當務之急。