隱私與資安技術將如何影響人工智慧應用的發展?

匿名資料也可能被識破身份

我們每天的行為,包括購物、閱讀、收發信件等都在產生數據,隨著大數據研究的興起,個人隱私侵犯的爭議更是從未停歇,部分擁有大量數據的機構會透過資料公開推動學術研究,並提升企業的服務。有些匿名資訊的洩漏,乍看之下並不覺得會造成問題,但其實透過不同類型數據的比對,個體的資訊也可能被識別出來。

知名串流影音平台Netflix,曾在2006年時舉辦一場知名的演算法競賽,希望能找到更好的影片推薦系統,用以預測用戶觀影偏好,因此公布了大批的用戶評分數據,讓參賽者可以任意使用,卻也引發了隱私危機。雖然這些用戶資訊經過匿名處理,但是Arvind Narayanan 和 Vitaly Shmatikov兩位學者,將這些數據與網路電影資料庫(Internet Movie Database, IMDb)的數據進行比對後,辨識出部分用戶的身份。從這個案例可以知道,只要曾經留下數位足跡,即使是資料匿名也無法確保個體隱私不受侵犯。更別說透過消費者的行為資料分析,得知個體當下狀況的改變。例如,原本定期購買麵包的消費者,到了四十多歲卻突然不買了,表示消費者可能因為中年發福,所以開始節食。

隱私與便利性的權衡

由於資安的疑慮,加上現代人對於隱私的重視提高,人們對於個人資訊的揭露有不同的考量,例如願意使用服務的人,並不一定願意讓自身資料暴露於外洩的風險中,這也導致許多服務能使用到的資料有限。例如,大部分的網站礙於資料取得的限制,多以「Attention」作為用戶追蹤的目標,希望使用者能在自身網站上投注更多的關注度。

Netflix 執行長及創辦人Reed Hastings便曾說過,睡眠是Netflix最大的競爭者,因為睡眠會讓網站使用者的「Attention」下降,但是犧牲睡眠並非好事,要如何讓企業能拿到比「Attention」更好判斷使用者狀態的資訊,又不會讓使用者陷入隱私外漏的風險中?這可能是企業後續需要努力的目標。

除了將資訊應用於企業服務之外,許多具有公眾利益的服務往往涉及敏感資料的齊全與否,例如醫學研究、公共衛生政策,又或是智能政府與統計服務在蒐集資料時,就必須同時確保人民的隱私。OpenMined提出新的觀點:與其讓資料被使用單位無限複製傳播,直到擁有者無法控制;不如將資料留在原地,讓需要使用的單位依規定使用。透過結構化透明度(structured transparency )的技術,讓醫療或其他單位可以透過相關技術,安全地分享這些敏感資料。

眾多技術的投入將有助生態系發展

為了尋求隱私保護與大眾利益的平衡,OpenMined也在影片中提到了結構化透明度(structured transparency )五大關鍵組成,包括輸入隱私(Input Privacy)、輸出隱私(Output Privacy )、輸入驗證(Input Verification)、輸出驗證(Output Verification)、和流程治理(Flow Governances)。

因應不同的問題限制所要對應的技術也不盡相同,例如在現行資訊流通的過程中,分享出去的資料是不可能完全收回來的,針對這個問題,在輸入隱私(Input Privacy)的部分,現行技術能以「公開金鑰加密」處理,以達到資訊管道不外洩的目的。

當使用者在提供資料同時,也會把一些不需要的資料分享出去。舉例來說,打電話向老闆請病假時,老闆從電話中可以獲得其他訊息,如聲音聽起來是否健康?電話背景也可能透露說話者位置資訊。針對這個問題,目前多使用「差分隱私(Differential Privacy)」技術,主要是透過在資料加上雜訊,隱藏掉真實資訊並保留整體資料。

如同當今的HTTPS技術(超文本傳輸安全協定)已經是被普遍使用的通訊加密技術,但它其實是以往各種技術與研究的累積成果;結構化透明度(structured transparency )就像HTTPS一樣,需要以前的很多種技術累積才能達成。不同於以往的公司會推出一套私有軟體,防止公司的智慧財產被複製,當今開源軟體的蓬勃發展,漸漸豐富了整個生態系,若能將這些技術整合成比較簡單易用的套件,不僅可以協助工程師快速應用,也能從中找到新的機會。

除了上述所提到的技術問題,還有資料管理的問題也需要被重視,也就是誰來監管資料不被誤用?可以預期資安議題與資料治理的領域將漸被重視,對於該領域有興趣的朋友可以前往OpenMined閱讀一系列課程,或是關注知勢網站,後續我們也將繼續提供相關內容,歡迎訂閱電子報

延伸閱讀:

OpenMined