0
雷鋒網 AI 科技評論按:今年,IJCAI(國際人工智能聯合會議,International Joint Conferences on Artificial Intelligence)將于 8 月 10 日至 16 日在中國澳門隆重召開。隨著會議臨近,特邀報告(Invited Talks)、 教學講座(Tutorial)和主題研討會(Workshop)等重要議程也相繼出爐。
「聯邦學習」作為當前人工智能領域一個有「異軍突起」之勢的研究方向,自今年剛提出這一概念時的「冷門」,到如今正式進入國際標準流程,無論是學術界還是工業界,都對這一研究方向顯露出了較高的熱情。
雷鋒網 AI 科技評論注意到,國內「聯邦學習」研究先行者楊強教授將在今年 IJCAI 會議上主導舉辦以「聯邦學習」主題的 Workshop(Federated Machine Learning for User Privacy and Data Confidentiality),供在該課題上做出成果的學者們發表和介紹自己的論文,同時也為在場同一個研究方向的學者們提供一個交流的平臺。
雷鋒網 AI 科技評論對該主題研討會的負責人微眾銀行人工智能部高級研究員劉洋進行了專訪,聊了聊本次在 IJCAI 2019 上舉辦「聯邦學習」Workshop 的出發點和期待,也聊了聊聯邦學習目前的發展現狀。
AI 科技評論:這次在 IJCAI 上舉辦「聯邦學習」Workshop 的出發點時什么?
劉洋:我們這邊舉辦這個 Workshop 的出發點最主要還是期望能利用這個機會推動聯邦學習生態的建設,希望學術界、企業界以及法律、監管機構都能夠對聯邦學習這項技術有更深入的了解,并希望更多的企業加入到這個生態中來。
同時,我們也希望能借此機會搭建一個平臺,讓有志于做聯邦學習方向的學生找到合適的研究團隊。
AI 科技評論:本次 Workshop 擬定的規模大概多大?與其他主題的研討會相比,聯邦學習主題研討會對于參會者來說,會有哪些不一樣的吸引力?
劉洋:我們這次擬定的規模大概為 60 到 100 人。相比于其他主題的研討會,我認為我們有以下幾個吸引點:
第一,我們邀請到了在聯邦學習領域有深入研究的國際領先的科學家們,包括 IBM 的 Shahrokh Daijavad、谷歌的 Jakub Kone?ny,他們會給現場的參會者做 Keynote 演講,分享聯邦學習國際最前沿和最先進的一些成果。
第二,論壇的最后一個小時,楊強老師會主持一個 Panel,邀請參與論壇的比較知名的專家在現場與參會者進行深度互動,一起探討聯邦學習未來的發展方向等等。
第三,這次在研討會上分享的論文,我們會請參會者一同評選出幾個獎項,其中就包括 Best Paper,用以激勵該領域的學生和研究者們。
第四,這個研討會給在學術界和工業界研究聯邦學習的研究者們提供了一個很好的交流機會,他們可以通過這個研討會更深入地了解對方都在做什么,彼此間也可以擦出更多思想的火花。
AI 科技評論:除了邀請了重量級的嘉賓來做 Keynote 演講,在議程的其他設置和主題還有哪些考量?
劉洋:在議程設置上,除了 Keynote 演講,我們還從本次研討會的 40 多篇投稿中選擇出了優秀的論文,并讓論文作者來到現場做報道,我們分別組織了 4 場 Session(總共 12 篇研究價值比較高的論文作者會進行 15 分鐘的論文介紹)和 1 場 Lightning Talk(總共 13 篇較優秀的論文作者會進行 5 分鐘的論文輕講解)。同時,這 13 篇將進行 5 分鐘介紹的論文連同另外 6 篇優秀論文會以海報的形式進行展示。
同時,這 4 場 Session 設置的主題包括隱私、安全和系統的魯棒性;系統的效率、交互和基礎設施;聯邦學習的整個機制設計、政策和應用,這都是我們認為在聯邦學習領域中的非常重要的子領域,非常值得我們去深入研究和探討。
比如說,聯邦學習實際上就是一個系統,它本身的效率和優化,還沒有得到廣泛研究,所以我們希望將這個方向作為研討會上集中探索的一個子領域;另外如何去引導政府制定與現在的法律法規相適應的政策,也是我們希望探討的一個重要方向,因為它涉及的不光是學術研究,還地涉及到了非常多的法律法規和公平性等方面。
AI 科技評論:希望本次論壇達到怎樣的效果,對于參加本次論壇的參會者有哪些期望?
劉洋:
一方面,我們肯定希望所有參加「聯邦學習」研討會的參會者都能夠有很好的收獲,這才說明我們這次舉辦的研討會成功地給大家提供了一個交流的機會;
另一方面,我們也希望對于整個聯邦學習的學術研究起到一個整體的推動作用,期望以這個研討會為起點,將來無論是學術界還是工業界,都能夠對聯邦學習這一研究方向有更多探索和更多應用。
AI 科技評論:楊強老師和您們基本是國內最早一批研究聯邦學習的人,當時是基于怎樣的契機、背景,選擇研究這一新的研究方向呢?
劉洋:首先,近兩年來,我們發現 AI 和數據面臨著比較獨特的環境,在落地應用上面臨很多難以克服的困境,并且主要是來自缺乏數據的困境,即數據孤島現象。雖然谷歌在 2016 年就提出了聯邦學習,但是并沒有解決企業之間數據孤島問題。
尤其是當我們來到企業以后,就強烈感受到,AI 如果想在工業界落地,是需要非常多的數據來支持的,然而大部分小企業基本上是無法應對這一難題的,如何讓小企業也能享受到大企業的數據以及提升數據的價值,使我們希望解決的問題。
其次,隨著國內、國際的數據監管在不斷加強,比如說歐盟在 2018 年 5 月 25 日開始實施的《通用數據保護條例》(GDPR)以及國內近兩年頒布的一連串更嚴格、涉及更廣泛領域的數據監督法規,使得企業之間實現數據共享更成為一個遙不可及的目標。
這樣的背景下,我們認為聯邦學習是解決這兩個核心問題的同一個解決思路,既能解決數據孤島的問題,又能解決數據隱私的問題。
同時再加上我們在聯邦學習上已經有了比較深厚的技術積累,我們的研發、工程人員都是這個方向的背景出身,且有很多年的研發經驗以及很強的落地經驗。所以我們就開始對聯邦學習這個方向進行更多的技術研究、落地和推廣。
AI 科技評論:實際上,最先提出聯邦學習這個概念的是谷歌,那微眾銀行這邊的聯邦學習對于谷歌的聯邦學習是否有繼承的方面(同)?又有哪些發展和變革(異)?
劉洋:繼承的方面就在于,我們和谷歌在聯邦學習的整體思路上是一脈相承的。
而最核心的不同之處在于,谷歌的聯邦學習方案是 To C 的(應用在用戶的手機端),是同一家公司根據內部對 To C 業務的需求所產生的一套用以解決數據隱私問題的方案;而我們的聯邦學習則是 To B 的,用以解決企業與企業之間的數據孤島難題,是一個更開放的類似企業聯盟的生態。
所以,根本上而言,谷歌的聯邦學習方案是橫向的,它使用的數據特征都是相同的,因而只需要建同一個模型;而我們的這種方案是縱向聯邦學習,不同企業之間的數據特征往往都是不同的,所以即便面向的用戶是相同的場景,整個技術方案和實施框架也是不一樣的。
AI 科技評論:楊強老師之前也提到,一開始研究這個方向的時候并不被大家所看好,在推進這一研究的過程中想必也遇到了不少阻力和困難,其中最大的是?
劉洋:因為我們的最終目標是要建立一個讓企業之間能夠對話的機制和生態,所以我認為最大的挑戰其實是我們如何讓企業來了解我們的技術,并且愿意相信聯邦學習的技術是能夠解決數據隱私問題,同時能夠打破企業之間的數據孤島問題的。
在這個過程中,聯邦學習除了技術本身外,還需要整套框架的支持,例如安全性保護和激勵機制的設計和建設都是我們需要重點攻克的,所以建設這樣一個聯邦學習機制或者說生態要遠比單純的技術性問題難得多。
AI 科技評論:另外,聯邦學習也涉及到很多算法(如分布式機器學習)等技術層面的東西,現在是否面臨來自技術層面的挑戰或瓶頸呢?
劉洋:實際上在技術方面,聯邦學習已經相對來說比較成熟。目前我們的聯邦學習,已經能夠實現一些工業化的場景,做一些實際的工業落地。但是研究本身其實是一個非常漫長的過程,技術上也會存在很多可以優化、改進的地方。
AI 科技評論:目前,微眾銀行團隊在聯邦學習方面發展到了哪一個階段?
劉洋:一項面向工業化的技術的發展過程一般是從開始的孵化到最終的大規模工業化量產。目前已經有很多大數據場景引入了我們的聯邦學習方案,所以我們的聯邦學習目前所處的階段是非常接近大規模工業化量產的。
AI 科技評論:不久前聯邦學習正式進入國際標準流程,這對于您們在聯邦學習的研究以及推廣方面,有哪些具體的促進作用?
劉洋:聯邦學習正式進入國際標準流程,可以說是給整個聯邦學習的生態建設打下了一個基石,意義巨大。
在聯邦學習的推廣過程中,我們越發地意識到,聯邦學習要想真正實現落地應用,就必須建立一種企業之間的對話語言,并且一定要是得到國際法律法規體系支持的對話語言。所以聯邦學習進入國際標準流程,可以讓加入聯邦學習聯盟的企業能夠在同一個框架上對話,同時,如果新的企業或機構想要加入聯邦學習,也必須按照這一標準的規定應用同樣的框架,這樣又能夠反過來推動聯邦學習生態的擴大。
AI 科技評論:隨著聯邦學習的影響力日漸提升,現在學術界和業界對于聯邦學習的研究熱情也在提高,目前還有哪些機構在重點從事這個方向的研究工作?
劉洋:現在,業界有一大批企業在做聯邦學習這個方向的研究,其中包括:第四范式推出了數據隱私方案,并且已在金融和醫療場景中應用該方案;創新工場在聯邦學習的安全性方面展開了深入研究;京東將聯邦學習應用到了城市大腦上;另外還有平安集團單獨成立了一個聯邦學習研發部門,等等。
而學術界,例如南洋理工大學、香港科技大學、北京航空航天大學以及清華大學等高校,都有很多老師和團隊在進行聯邦學習研究。
我們希望我們現在關于聯邦學習的工作能夠起到啟蒙性質的作用,能夠其啟發更多的學生和研究人員來研究這個課題,希望明年能夠看到學術界和企業家的研究者們對聯邦學習展開更深入的研究。
AI 科技評論:聯邦學習的落地場景都有哪些?
劉洋:醫療、金融、保險等需要用到很多大數據的領域,都是聯邦學習的落地場景。
AI 科技評論:在讓聯邦學習具體落地到場景應用過程中,遇到了哪些困難或挑戰?其中最大的挑戰是哪個?
劉洋:聯邦學習在不同的領域會遇到不同的挑戰,比如說在金融領域,我們遇到的挑戰更多的來自于監管機構,我們需要讓監管機構去理解和推廣聯邦學習,從而成為銀行之間進行對話的橋梁,所以我們也一直在跟深圳的監管機構進行溝通。另外在邊緣計算領域,比如說 IoT,我們主要面臨的挑戰是邊緣計算不足的問題。
AI 科技評論:在尋找落地的合作伙伴時,會有哪些重點考量的地方(例如,是否要求合作方擁有足夠豐富的數據量)?
劉洋:我們目前還處在一個需要高速或加大力度拓展聯邦學習生態的階段,所以在合作伙伴的考量上面,我們其實并沒有要求對方一定要是大公司或者是有技術深度的 AI 公司。在我們的生態中,現在有很多長尾的終端公司,也有一些創業公司,同時也有騰訊、平安這樣的大企業。
合作伙伴的業務場景是否能夠體現聯邦學習的價值,這是我們一直以來的價值追求和衡量標準。
AI 科技評論:目前,聯邦學習在這些領域的大數據應用中起到了哪些「看得見」的影響?期望它最終能為大數據的應用發揮怎樣的作用?
劉洋:聯邦學習的作用就在于能夠將很多小數據匯聚在一起變成大數據,所以它的價值和影響主要是在隱私保護下匯聚和挖掘數據的價值。
比如在金融領域,聯邦學習能夠用以分析潛在的欺詐行為;在保險定價領域,能夠更多維度地去精準分析用戶的屬性。則對于企業而言,應用聯邦學習能夠更有效地節省成本,同時也能夠更精準地去做用戶的目標定位和分級。
另外對于一些數據非常敏感的場景,比如說醫療領域,不同醫院也能夠通過聯盟學習技術去共享敏感的醫療數據。
AI 科技評論:您認為聯邦學習這一領域發展到理想的狀態還要多久時間?
劉洋:實際上,一個領域要想從零發展到一個比較熱門的狀態,至少需要幾年的時間。就比如說谷歌在 2016 年提出聯邦學習,當時該領域僅有幾篇論文;而在過去的兩三年時間里,每年都有幾十甚至上百篇論文出來。現在,聯邦學習正處于一個快速發展的階段,隨著越來越多的人參與到這個研究領域,聯邦學習會離理想的狀態越來越近。
我認為聯邦學習最理想的狀態應該是能夠能夠解決大多數企業的痛點,并在落地應用上實現大規模量產。正如我剛提到的,我們現在已經在靠近這樣一個階段了,未來的一兩年時間是非常關鍵的。
AI 科技評論:之后,微眾銀行會考慮做 To C 端的聯邦學習嗎?
劉洋:這是一個很好的問題。我認為我們目前還是會主要聚焦于 To B 的聯邦學習,因為這是我們的優勢所在。
未來我們可能也會涉及到 To C,但如果 To B 已形成幾十萬或幾百萬家的微、中小型企業的規模,我們能做的事情就已經很多很多了。所以我們未必一定要做跟谷歌同樣的事情。
AI 科技評論:下一步,微眾銀行團隊針對聯邦學習這個方向的研究有哪些規劃?
劉洋:在技術研發方面,我們下一步的規劃包括幾個方面,一是我們需要建立更好的攻防體系,讓聯邦學習變得更加安全,也更有效率;二是我們需要從技術層面加快建立激勵機制,讓更多企業加入到聯邦學習聯盟中來。
在生態推廣方面,我們會繼續完善整個聯邦學習生態體系的建設和維護,建立企業之間能夠進行對話的標準,同時針對不同的業務場景和不同的領域提出更多的解決方案。
(完)
IJCAI 2019 召開之際,聯邦學習 Workshop 也將于 8 月 12 日 如期舉行。更多信息請參考:http://fml2019.algorithmic-crowdsourcing.com/programme/?from=timeline
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。