0

作者 | 維克多
2021年12月17日,浙江大學求是講席教授、ACM Fellow、IEEE Fellow、浙江大學網絡空間安全學院院長、計算機科學與技術學院副院長任奎在CNCC 2021 “迎接數字化轉型的安全挑戰”論壇中做了《隱私計算:向實用化邁進》的報告。
在報告中,任奎圍繞數據脫敏、差分隱私、安全多方計算三個方向,討論了隱私計算的前沿進展,提出不同技術可以在數據全生命周期的不同階段發揮作用。
以下是演講全文,AI科技評論做了不改變原意的刪改和整理:
今天分享浙江大學網絡安全學院在隱私計算方面的思考和研究,題目是《隱私計算:向實用化邁進》。

目前,隨著大數據時代的到來,隱私數據泄露問題日益突出,例如國內互聯網大企業由于嚴重違法違規收集使用個人信息被勒令下架整改,國外的擁有億級用戶的互聯網大企業的個人隱私數據被泄露。因此,無論在哪個國家、科技公司還是傳統行業,都在面臨數據和隱私泄露問題。

在這種背景下,世界上各個國家對監管與合規的要求都變得越來越嚴格。從中國角度,2012年第十一屆全國人民代表大會常務委員會就通過了《關于加強網絡信息保護的決定》;2016年通過《中華人民共和國網絡安全法》,這部代表性的法律也體現了中國對數據安全隱私的重視;尤其近兩年,國家部門也從各個角度頒布相關法律,形成了比較完善的法律體系。例如《數據安全法》《個人隱私保護法》等等,其具體抓手也越來越明確。

從世界范圍內來看,歐盟在《通用數據保護條例》(GDPR)落地之后,開了很多大額罰單,這既體現了日益嚴重的數據隱私泄露問題,也體現了越來越嚴格的監管合規要求,同時也給研究領域和產業領域帶來了很多機會。
Gartner 在2021年對數據隱私保護戰略做了預測:到2023年底,全球75%的人口的個人數據將受到現代隱私法規的保護;到2023年底之前,全球超過80%的公司將面臨至少一項以隱私為重點的數據保護法規;到2024年,全球隱私驅動的數據保護和合規技術支出將突破150億美元。因此,挑戰和機遇并存,困難與希望并存。

日益嚴格的法律法規,也提醒我們回顧一下廣義上隱私計算的涵蓋范圍與發展。廣義上的隱私計算指 “兩個或者多個參與方在不泄露各自數據的前提下,通過協作對數據進行聯合計算處理。”
其實,這里隱含“安全性”和“高效性”兩個關鍵詞。從1982年安全多方計算、1983年可信計算、1985年零知識證明、2006年差分隱私到2016年聯邦學習,相關技術在不斷發展,都在圍繞安全與效率而做努力。

安全多方計算是密碼學研究的一個重要分支,通俗定義是:為解決一組互不信任的參與方之間在保護隱私信息以及沒有可信第三方的前提下協同計算問題而提出的密碼協議與理論框架。
狹義的安全多方計算主要包括以下兩種實現方式:
1. 針對布爾電路以姚氏混淆電路方式實現的兩方協議;
2. 針對布爾電路或者代數電路以秘密分享方式實現的兩方或者多方協議。
在廣義上,全同態加密、可信硬件以及聯邦學習都可以看做安全多方計算的技術框架。
在應用程度上,安全多方計算可以分為通用安全多方計算,可以支持大多數計算任務,實現常用基本計算算子協議,例如加、乘、比較、矩陣運算,將具體計算任務分解到基本算子;專用安全多方計算,以“高效實現專用實用計算任務”為目標,可以針對專用計算任務和應用場景定制多方安全計算協議,常見的專用協議包括隱私保護求交集、隱匿查詢、零知識證明、聯合建模等等。

目前,業界針對安全多方計算開發出了各種產品,但如何進行比較?我認為可以通過安全假設、性能以及安全保障三個維度進行評測。例如在安全假設中,采用的是同步、異步、半同步中的哪種網絡假設?敵手模型采用的是半誠實、惡意還是隱匿作惡?
而在安全保障中,應該考慮隱私性、正確性、公開可驗證性、健壯性以及公平性等六個角度。此外,在“前提”和“保障”之間,技術產品實現的性能如何?例如參與方數據是否平衡、參與節點算力是否對稱等等。
國家也開始積極的探索,例如信通院提出《隱私計算多方安全計算產品性能要求和測試方法》,通過基礎運算、聯合統計、盈利查詢、安全求交等等維度考慮產品性能。

目前在學術界,安全多方計算也在穩步發展。在基于混淆電路的安全多方計算前沿協議層面,如上圖所示,針對參與方數量、門限、敵手模型以及入侵假設,都研究了對應的“方法”。

在基于秘密分享的安全多方計算前沿協議層面,已經有大量的開源安全多方計算框架,如CrypTFlow、 PySyft、 Rosetta等支持機器學習的框架;MP-SPDZ、 SCALE- MAMBA等通用框架。前者對性能要求更高,后者認為安全是“第一要務”。

在零知識證明領域前沿協議層面的進展如上圖所示,在加速、計算量、證明大小等方面各有千秋。

在隱匿查詢前沿協議層面,目前最好的技術屬于微軟和谷歌。它們完成百萬級的查詢,大概只需要2秒~4秒。在安全求交前沿協議層面,考慮150Mbps帶寬的情況下,也能達到10秒~30秒的百萬級查詢。

在聯合建模層面,Sp’17和PETS’20雖然在性能的表現不是最好,但是在安全層面卻是最嚴謹的,都能保證只泄露最終模型,不泄露中間結果。

目前,浙江大學也在安全多方計算領域開展了一些工作。例如研究統一MPC隱私性度量標準;研究統一安全假設的評分標準與各維度的權重;研究統一安全保障的評分標準與各維度的權重;研發安全多方計算靶場;完善安全多方計算性能測評標準與平臺等等。

差分隱私和密碼學不太相關,是較新的概念。其思想和工作原理大致可以理解為:在數據中加入噪音,使得統計學相關的查詢既能得到有效的數據,又能保證安全。學術上的定義是:通過建模單個參與者對數據造成影響,實現對隱私保護(泄露)程度的量化。
目前,該方法可以分為兩種:全局差分隱私,可信的數據管理者收集數據并在數據集的統計結果上添加擾動;本地差分隱私,用戶在本地對數據添加擾動后,發送給非可信的數據管理者。

從計算角度看,差分隱私能在一定的程度上解決“密碼學手段開銷過大”的缺點。對比加密方法解決數據計算過程中的隱私泄露,而差分隱私方法解決計算結果的隱私泄露。目前,差分隱私的部署和使用大多為政府機構與互聯網巨頭。

例如,2016年蘋果在WWDC大會上宣布使用基于CM- Sketch和阿達馬變換的本地化差分隱私技術來保護IOS、MAC用戶隱私。相比于布隆過濾器, Count- Min Sketch更適用于頻率統計任務;阿達馬變換也能有效降低通信開銷。但有研究人員認為蘋果在實際應用中設置的隱私預算參數超出了可接受的范圍,隱私保護能力不夠強。

微軟也有相應的動作,并在2017年將差分隱私方案部署到了win 10系統中。此外微軟和哈佛大學合作推出了 OpenDP開源差分隱私平臺,希望降低中小開發者應用差分隱私的門檻。

阿里巴巴也在 Datatrust隱私增強計算平臺中部署落地差分隱私保護的聯邦學習決策樹訓練。
差分隱私之所以受到關注,主要是它有嚴謹的理論模型,提供了可驗證的量化隱私保護機制;提供了傳統密碼學無法提供的隱私保護手段,具有更輕量級的計算負載,提高了隱私保護效率。
但也存在理論和應用上的挑戰。例如在理論層面,數據可用性較差:差分隱私在查詢結果中加入隨機化,導致數據可用性下降;數據類型有限:缺乏針對復雜數據類型的有效差分隱私保護方法。
在應用層面,差分隱私不適用于單一樣本的確切信息查詢;復雜應用場景下差分隱私得到的結果誤差較大;并且,目前還缺乏測試算法(乃至自動測試算法)是否符合差分隱私的方法。

如今,學術界針對差分隱私的機制優化有了一些進展。例如上圖所示的最優機制設計、機制后處理、最優機制搜尋等工作。

相應地,Shuffle機制、Subsample機制的提出增添了差分隱私放大機制的研究。
針對應用難題,學界也提出了差分隱私正確性測試方法,包括多輪采樣與概率論技巧相結合的方法、程序分析的方法等等。
數據脫敏( Data Masking)是根據制定的脫敏規則,針對敏感信息進行數據變形或形成遮蔽,降低數據的敏感級別,擴大數據可共享和被使用的范圍,達到保護隱私數據安全的目的。

根據是否脫離生產環境,數據脫敏可以分為動態數據脫敏和靜態數據脫敏。前者對敏感數據的查詢和調用結果進行實時脫敏。在訪問敏感數據的同時實時進行脫敏處理,可以為不同角色、不同權限、不同數據類型執行不同的脫敏方案,從而確保可用而安全。
后者(靜態數據脫敏)是指數據脫敏后分發至測試、開發、數據分析等場景。是數據的“搬移并仿真替換”。將數據脫敏處理后,下發給下游環節取用和讀寫。脫敏后數據與生產環境相隔離,滿足業務需求的同時保障生產數據庫的安全。

如上圖所示,數據脫敏有很多方式。例如數據一致性脫敏、遮蔽脫敏、保持數據格式脫敏、泛化脫敏、保持數據特征脫敏等等。
作為數據安全防護工作的重要一環,數據脫敏技術和產品已作為常規手段,而敏感信息依賴于實際業務場景和安全維度,識別和梳理具體業務場景的敏感字段迫在眉睫。同時,目前市場上的數據脫敏供給商可分為信息安全服務服務商、自研自用企業以及通用數據脫敏工具開發商三類。但在全球范圍內尚未形成脫敏的具體標準。

目前,浙江大學與阿里巴巴合作開發了DMS數據管理系統,包含了40萬個實例、400萬數據庫、10億張表,能夠實現根據敏感數據自動分級分類、異常訪問風險識別等等功能。

數據脫敏的應用非常廣泛,但也存在一些難點。例如如何確定數據脫敏的目標字段?當前選擇脫敏數據目標字段主要依賴于人工標記,在準確性、安全性和高效性上仍有較大缺陷 。
如何保證數據脫敏過程的安全性? 當前主流算法的脫敏過程仍不完善,有泄露和被取擊的風險。
如何評判數據脫敏結果的脫敏程度?目前市場上有許多種類的脫敏工具和算法技術,但是沒有一種統一的標準來量化和衡量脫敏結果的好壞。
總結一下,數據市場依托隱私計算打破數據孤島非常重要。從數據脫敏、數據溯源到數據融合,再到數據確權、數據定價,隱私計算已經發展出了非常有潛力的技術,它在未來數據要素化資產市場配置過程中也會起到底座作用。
綜上所述,隨著數據安全監管與合規要求的日益嚴格,隱私計算技術所面臨的機遇與挑戰、困難與希望并存,是未來迎接數字化轉型的重要安全問題之一。
2021-12-18

2021-12-23

2021-12-17

雷峰網雷峰網(公眾號:雷峰網)
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。