0

本周,“2021人工智能產業論壇:數據要素與隱私計算”在成都舉辦,由中國人工智能學會主辦,星云Clustar承辦。論壇上,近二十位來自人工智能、金融科技的學術界、產業界人士,圍繞隱私計算、數字金融等話題展開了深入的探討。
專家們在會上一一指出數據要素從誕生到使用、交易的各種痛點所在,并結合自身實踐經驗給出了發展路徑的思考;金融機構、政企合作如何借此良機推動數字化進程、擺脫種種陷阱,也同樣是論壇的一大重點。
恒生電子研究院院長、原上海交易所總工程師白碩就指出,“跑馬圈數據”時代的兩大痛點,是合作難和鏈條長。解決方案是加寬加高底座,打造一個開放的生態。數據智能革命會從數字化的中臺開始,數據是基礎,中臺是關鍵場景的規劃,隱私計算是當中較為突出的技術之一。
數據容易被復制、泄露、擴散,這種特性對市場非常不利,以至于有些人認為數據的經營和交易有可能是一個偽命題。
數據的構成也相比之前變化頗大。例如資本市場,從資訊商提供主流數據行情、上市公司標準化解決數據等,進入到非標數據分析的時代,大量的另類數據、非結構化數據出現。
數據生態起了根本性變化,為此有四種選擇誕生:過去互聯網平臺的發展模式;政府數據所謂的數據服務模式;萬德、同花順這類私有終端的傳統模式,單一廠家掌控所有的數據來源;數據聯盟。
傳統打法可能不再是主流,私有終端也未必能應對另類數據的龐大體量,聯邦化的技術發展正值窗口機遇期。
數據到場景的鏈條過長,從附加值低的裸數據,轉型艱難的帶標數據,再到智能化深加工的數據、場景數據,各階段所需技術不同,不同技術的擁有者變成了要“分段”體現自己的價值。這意味著誰能打通全鏈條,就可能占據生態上的優勢。隨著隱私計算走向成熟,機會也出現在了to B的聯邦化數據經營戰場。
新的機會,縱向看,內容集成商對接數據到場景的舊做法,可能會演化到全棧服務商提供內容深加工的形式;橫向看,外部數據、服務會通過帶保護的方式,進入到基礎業務能力,合并形成統一的聯邦化中臺再對接業務。
加拿大工程院院士、加拿大皇家科學院院士楊強,則就《數據要素與聯邦學習》為主題帶來分享。他指出,數據的特點之一是增長迅猛,布置起來零成本;數據的價值屬于場景的定義,場景不同、價值不同;同時它也具有馬太效應,更容易形成壟斷。
數據分為可用和不可能,前者又細分為可見和不可見。我們如今感興趣的,實際上發展的是可用和不可見的分支上。
第一階段,上世紀七八十年代,安全多方計算,針對精確計算和數據庫查詢的隱私保護需求而提出。安全性非常強,有理論證明,效率卻非常低。
第二階段,針對效率問題,提出差分隱私概念。通過概率方法引入噪音,使得查詢方不能窺探數據庫內。缺點是不能完全保障安全,且大量增加通知量。
第三階段,集中硬件加密計劃。硬件廠商提出新的芯片,使數據進入安全加密計算,一方看不到其他方數據,計算結果大家可以得到。
第四階段,聯邦學習,針對這種大規模復雜的計算多方計算而建立。
(推薦閱讀:《微眾銀行首席AI官楊強:萬字圖文詳談聯邦學習最前沿》)
機構間建模時,多數依靠特征補充來建立更好的模型。當機構和設備重疊不多時,可引入遷移學習的概念,把數據空間給遷移到一個新的空間,這多數是用在異構的數據。
還有一個重要研究方向,是激勵機制的建立。例如利用區塊鏈來記錄審計,每一個數據擁有方對整個聯合模型的貢獻。這就需要一個公平的利益分配原則,需要經歷機制設計的過程。
應用方面,首先在金融的交叉營銷、反洗錢,可以通過聯邦學習把他們的數據聯合建筑,把模型的特征空間加以擴充,完成聯合建模;以及醫療診斷、物聯網、無人車網絡等。
總體來說,聯邦學習是多學科的交叉,包括安全合規,如何防御攻擊和提升教育,如何廣泛的來進行技術應用,還有如何建立這種聯邦機制聯盟的機制,以鼓勵大家持續的為經濟體為生態貢獻。
而隱私計算的商業模式也逐漸形成,例如平臺建設方靠硬件產品部署和提供利用項目建設的方式收費;咨詢服務商幫助大平臺進行數據價值解讀,利用數據運營等。
香港科技大學智能網絡系統實驗室主任、星云Clustar創始人陳凱,與清華大學金融科技研究院副院長、華控清交創始人徐葳也就隱私計算和數據要素兩大主題,帶來了一場深度對話。
數據保護現狀是否也促成了更多潛在的商業機會?對此,陳凱表示機遇與挑戰并存,面臨的挑戰首先是產品;徐葳則指出,長遠來看,挑戰仍然在于數據能否帶來價值。
而對于技術應用角度如何積極適應規則,陳凱表示,很難有一個技術/算法能夠最小地完成最小影響,最小范圍、最短時間;法規是在技術研究上給予約束條件,幫助推動研發和落地的進程。
當被問到隱私計算未來發展的特征,陳凱表示建立安全的數據網絡意義重大,如何處理大量不同機構間的異構數據、性能和規模上處理海量數據、如何讓利益共享的性能有指數級的提升,當中有許多值得努力研究的難題。
徐葳則笑稱“只有爛大街的技術才是好技術”,認為一項新技術未來的表現,要看技術本身能否成功、使用門檻能否降低。數據源也在逐步有機生長,很多不同行業、不同地區的小平臺被建立起來交換數據,如何讓這些異構平臺也增長成功、小的計算方法和技術整合起來,實現規模經濟,也值得關注。
百度安全產品總經理韓祖利也認為,數據要素呈現幾大趨勢特性:規模上升,類型增加,數據價值密度降低,應用場景也在泛化。
在他看來,當代數據安全的核心要義:應對強對抗的安全問題,非對抗安全和內部使用的權限、審計,隱私保護。因此一個方案如果誕生,應具備三個特點:覆蓋數據全生命周期,一體化的集中治理平臺,和合規的數據使用、流通形式。
成都大數據集團總經理顧勤就表示,關于科學要素流通的創新實踐主要有三個階段:公共數據運營;整體數據流通,政府的公共數據和社會企業的數據間產生碰撞;產業數據的協同。
以第三階段為例,即產業數字化,有兩種方式:傳統產業的體能升級;創新產業的協同效應,通過系統的互聯、數據的交互,產生新的價值和場景。
第四范式副總裁、主任科學家涂威威,則在演講中提出這樣一個問題:傳統的數據安全設計,能夠覆蓋AI應用的范圍嗎?
在訓練到預測的許多環節里,都出現了他們預想不到的攻擊方式。多種看似正常合法、實為攻擊的手段,已經發展頗為成熟。
例如AI公司對外提供信用卡授信模型,攻擊者可以通過不斷申請、使用授信服務,將反饋回來的數據用于“猜測”那個授信模型。如果這樣的新模型被訓練出來,攻擊者有可能就會猜到訓練集的內容,相當于數據泄露,但該過程中的行為均是合法的。
很多研究陷入了停頓狀態,AI應用是一個廣大的系統,攻擊者能以任意方式攻擊。在實際應用當中,即便這部分防住了,其他地方依然有很多的缺口。而AI相關理論目前尚未辨析清楚,如果用于引申的AI應用當中,其實際指導作用十分有限。
為此,從傳統IT安全角度出發,從商業邏輯和可行性出發,討論隱私安全是一種矛與盾的理論,要加強對攻擊者的研究。
論壇的下半場則關注數據要素與數字金融。國家金融與發展實驗室副主任曾剛,從金融機構數字化的角度切入,指出需要組織架構和數字化基礎架構的調整、創新;數據資產化能力和數據治理、數據營銷和運營能力、數字化風控能力,只有少部分金融機構做到了。
以前是實現商流,物流,資金流三流合一,這個是打造閉環模式重要的理念。但是現在這個閉環模式意味著對數據的壟斷,所以要打破。
最后他強調,數字化的本身并不是技術多高、計算能力多強、準確率多高等,從傳統金融機構角度來講,核心是服務客戶的需求。因此數字化并不是一味追求數據領先性,而是適應性,適宜性,尋找最合適的技術。
清華大學國強教授、智能產業研究院首席研究員聶再清,也提出了兩個具有挑戰意義的問題:
一是模態數據。如何聯系不同模塊來提升AI的認知能力,使其綜合應對實際應用的水平提升,應用好各模態間的信息?
二是多模態應用,訓練成本頗高。如何提升人機協作的效率,更多利用AI來低成本生產高質量的知識和訓練數據?
那么,在可信AI原則下,如何發揮私有數據的價值?他指出,要這些原始數據利用機器學習變成知識;通過經濟方式共享、聯邦的方式,看到“私有財產”數據的價值,得到應有的經濟回報。
建信金融科技創新實驗室總經理王雪,分享了建設銀行和建信金科在數據和隱私監管趨嚴的前提下,對解決路徑的思考:
一,所需要的隱私計算平臺本身的功能,一定是和場景、需求強綁定的。其開發過程需要由長激動不斷調整和驗證。
二,在此過程中,場景和生態要有相互促進,場景和運營能力的不斷提升對平臺起到反哺和教學的作用。
三,核心思想仍然是通過隱私計算能力實現數據價值最大化。
王雪也結合了數易聯平臺的建設,介紹了建行對該平臺的規劃細節。她表示聯邦學習也在集團內部有所應用,用于產品營銷、政務數據的融合與挖掘等。
星云Clustar的CEO陳沫也透露,他們已與建行合作搭建了一個聯邦學習的聯合建模平臺。
光大信托信息技術部副總經理、數據中心總經理祝世虎就指出,很多中小銀行在金融科技上落入后發劣勢,后浪可能僅學習前浪表面容易實現的部分;而前浪也容易陷入一套模型對所有業務、建模套路化的陷阱,模型容易失去準入效果。
他預測,未來金融科技發展會有六大方向:
深度學習算法將會被廣泛采用,隨著數據的進步,深度學習算法才會充分發揮活力;
多模態數據、非金融數據會廣泛使用;
網絡發展解決了反欺詐的問題,圖譜能夠識別新型欺詐,多維圖譜的不斷豐富會成為銀行的第二數據源;
聯邦學習會大規模落地;
算法的可解釋性將會被逐步重視,近兩年都集中在特征重要性的排序上。不過也不要一味追求可解釋性,智能的本質是利用算法和數據,抓住那些被埋沒的不可解釋信息出來。
自動化的監控平臺將會逐步的升級為模型風險管理平臺。
雷鋒網雷鋒網雷鋒網
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。