0
土地、勞動力、資本、技術之后的第五種生產要素是什么?數據。
數據的安全有序有效流動問題,學術界和業界“解法”眾多,要讓技術理論真正進入到應用落地的進程絕非易事。
為此,雷鋒網《AI金融評論》率先推出了《金融聯邦學習公開課》系列,并與HKSAIR(香港人工智能與機器人學會)聯手打造了《AI金融-隱私計算與聯邦學習》系列公開課,十余位國內聯邦學習與隱私計算頂尖專家做客線上講堂,就相關研究熱點與商業應用展開最前沿的分享和討論。
近期,《AI金融評論》邀請到了華控清交CEO張旭東做客雷鋒網公開課,談談他眼中的數據隱私保護技術,以及華控清交一系列工程化研究的探索和實踐。
以下為張旭東公開課全文,AI金融評論做了不改變原意的編輯:
數據是數字經濟的關鍵生產要素。從農業社會到工業社會再到信息時代,直到我們現在開始進入數字經濟時代,每個社會發展階段都有一種生產要素是最重要的和最難替代的。
目前黨和國家對數據要素化的認識程度在不斷加深,從2014年開始,習主席談到信息日益成為重要的生產要素,到去年四中全會,包括在今年的6月1號,國務院關于海南自由貿易港建設的總體方案中,都提到了數據要素化,數據要流通、挖掘價值。

數字經濟時代,數據是在人類生活和生產過程中,對自然資源和社會資源在分配和使用上進行優化的決策依據。
首先,我們來看看作為生產要素的數據,為什么要交易流通?
第一,生產要素的價格,是它參與社會化大分工的分配依據。國家講得很清楚,要健全數據等生產要素,由市場評價貢獻、按貢獻決定報酬的機制,其中就提到了市場化的定價。價格是報酬的決定因素,數據作為生產化要素的報酬,那么如何形成定價呢?
這就需要流通,需要由市場來進行,需要由供需來決定。
我們用一個模型算出來這個數據值多少錢,是不是它的價格?不是,因為沒有通過市場供需關系的檢驗,所以,數據的價格由市場決定,由市場供需決定,使數據成為生產要素的關鍵需要由市場供需決定,就需要流通。
那么,既然數據作為生產要素需要交易流通并進行定價,為什么現在為止還沒有大規模的數據流通,沒有大規模的數據要素市場?難在哪里?缺什么?
從數據特性來看,數據是一個很特殊的生產要素,其特征是復制成本極低,復制速度奇快,傳播速度也極快。數據一旦被看見,包括被人看見或者被機器看見,都可以被復制,而且是可以被無限制地復制。
在簡單的經典經濟學理論上,供需要有兩根曲線相交,才能形成價格。明文數據的特點,使得它的供應和需求都是無限的,供應和需求兩根線無法形成一個焦點,很難通過市場供需進行定價,并形成大規模的市場交易流通。
再者,數據還存在一些群體性和公眾性的泄露或濫用的問題,這些可能會影響整個群體甚至國家的利益。如果出了事,誰負責?獲得利益后,該怎么處理?權利應該怎么主張?原始數據、二手數據、再生數據等,不同方又有什么樣不同的權益和責任?
這么多問題,目前要把它整盤解決,還需要很長的時間、需要實踐和探索。我認為沒有一個完美的答案——會有很多取舍,關鍵是取什么?舍什么?
從數據價值來看,我們可以把它分為信息價值和計算價值。
以波粒二象性打個比喻——數據有可以被展示或者被看見的具體信息,而另外一方面,數據雖然看不見,但是可以被用于計算得出結果,這就類似量子力學中的粒子和波。粒子是有形的,波是無形的,但是他們同樣傳播能量。
在目前大數據和人工智能的時代,我們也把數據比作新的能量——數據能,而數據的主要價值越來越多的體現在它的計算價值。

那么,數據交易流通的前提和形態是什么?
因為明文數據的特征和特性,無法進行大規模的交易和流通。所以必須把數據的具體信息和計算價值分開,把數據作為變成可用不可見,避免被看見后造成無限供應和無限使用。
計算價值怎么辦?能不能對數據的計算價值進行限制,只有規定數據的價值,才能對數據的使用權進行定性、定量,形成有限的供應和需求,才能讓這兩根線豎起來形成焦點,同時避免、防止數據被濫用,厘清數據的責、權、利。
如何能夠做到以上兩點,通過市場供需進行定價和大規模流通的是什么?既不是數據本身,也不是明文數據,而是數據的特定使用權。
目前,大家談到數據時,就會談到數據確權和交易流通。這兒先拋出一個觀點,就是:過早、過嚴、過窄地定義和規定數據的所有權,在法律上可能會制約數據產業和數據生態的發展。目前,要通過實踐積累、摸索經驗,反復的試驗,才能夠把這件事做好。
數據確權的難處,只能點到為止。交易和流通需要生態,其中更重要的是,需要數據和資本的結合,才能使數據的交易流通、要素化大規模發展。
現在,數據還不是法律和金融意義上的資產?!翱捎貌豢梢姟奔由弦幎ㄓ猛竞鸵幎ㄓ昧浚梢詫崿F數據的歸屬權、使用權、收益權和處置權的分立,為數據真正成為資產,成為生產要素奠定技術基礎。最后使它變成法律和金融意義上的資產的,不是技術,而是法律法規對其進行保障。
在目前數據確權相關法律法規還不健全的情況下,是不是可以進行嘗試,使數據交易流通?可能性是有的。也只有這么做才能反過來為數據的確權真正提供有益的實踐和探索。
怎么做?利用數據的可用不可見和規定用途、用量的技術手段,把它的使用權和受益權抽取出來。只針對使用權和受益權,在目前這個階段,已經足夠讓數據進行先期的交易和流通,為后期的進一步的數據確權積累經驗。
怎么才能做到可用不可見,又如何規定數據的用途用量?
數據可用不可見的基礎理論叫多方安全計算理論(MPC——multi party competition),由姚期智先生提出。安全是前提,沒有安全就沒有多方。
他通過兩篇論文,提出了百萬富翁問題:兩個百萬富翁碰到后,相互都不愿意告訴對方有多少錢,也沒有一個可信第三方,怎么把這個比較做出來?
姚期智先生在86年從數學上證明,凡是可以在明文上進行的技術,都可以在密文上進行計算,而且得出同樣的結果?,F在多方安全計算成了密碼學的一個重要分支。多方安全計算理論屬于密碼學范疇,是經過嚴密的數學論證的,它的安全假設是不信任硬件,不信任人。
在明文計算體制當中,數據存儲的加密技術、安全技術已經很發達,就像洋蔥,里邊有個寶貝,一層一層包起來,裝進保險箱,再裝進地下室,然后把鑰匙全拿走。
在這種情況下,唯獨在它進入芯片進行計算之前,必須解碼、解密成明文,才能編譯成指令集,輸入計算機進行計算,得出的是明文的結果,然后趕緊再包藏起來,進行傳輸。而在它解密成明文進行編譯、計算的時候,從理論上和實踐上都是不安全的——它要么要相信硬件,要么相信軟件,要么相信人。
多方安全計算理論,可以使數據在密文上直接進行計算,所以它可以不相信硬件,可以不相信軟件。
舉個不一定恰當的例子,就好像去澡堂洗澡,在明文范疇內,你穿著衣服,從頭到腳全副武裝進去洗澡,很安全,不知道你是誰,但是到了澡堂之前,你必須裸露后才能洗澡,洗完后趕緊用毛巾擦干,恢復原狀。
但是,在澡堂子里洗的過程安全嗎?澡堂子是誰造的?誰管的?你能相信硬件,相信軟件沒有后門,相信管理這些硬件軟件的人嗎?
所以,多方安全計算做的就是穿著衣服洗澡,當然耗費大一點,水要用的很多,但洗完了以后出來還是完全蓋住的。
在這個理論剛提出的八十年代,算力耗費之多,使得它只是在理論上成立,如今分布式計算、通訊科技的發展,則使它具備初步的實用性。
華控清交實現了基于多方安全計算,把多種基于明文的隱私計算技術(比如數據脫敏、差分隱私,聯邦學習、可信計算等等)融合在一起形成的隱私計算解決方案,解決的是計算的準確性、保密性和計算效率之間的優化等關鍵問題。
那么,怎么從理論到實踐,做到讓數據可用不可見?
我們把加法、乘法和比較通過密碼學原理,從根本上用密文的形式替代了明文,重新把通用函數和機器學習深度學習的工具密文化,可以像在明文上編程一樣,做到可用不可見的底層邏輯。

同時,我們還綜合應用了基于明文的隱私計算技術,實現了明文和密文的混合計算,在不同的場景下可以完成隱私查詢、聯合建模等實際應用。
如何實現的呢?拿電話來舉例——人看不見,聲音聽得見,比喻可用不可見。
我們的隱私計算服務就如同“交換機”,負責按照數據提供房和數據使用方之間的數據計算合約,調配算力執行隱私計算,并把計算結果給到合約指定的結果計算方。它是數據共享與流通的計算控制站和算力調配中心,是隱私保護計算和高效算力的結合體。
數據接入節點就如同“電話機”,部署在數據端,把明文數據轉換成計算因子或將密文計算結果解算成明文。而計算因子本身不承載任何可以“看見”的具體信息,是數據計算價值的載體。這些理論是通過密碼學和數學嚴密論證的。
那么,數據程控交換機可以連接多臺電話機,疊加起來、組合起來的就是數據電網,就如同國家對數據要素進行監測管理和宏觀調控的神經系統和基礎設置,助力數據要素化。
這種基于合約的隱私計算技術,能夠有效打通社會化數據閉環,使數據真正成為生產要素。

雷鋒網雷鋒網雷鋒網
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。