<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
      人工智能學(xué)術(shù) 正文
      發(fā)私信給陳彩嫻
      發(fā)送

      0

      馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020

      導(dǎo)語:近幾年,聯(lián)邦學(xué)習(xí)技術(shù)帶來了非常好的潛在商業(yè)落地場景與創(chuàng)業(yè)機(jī)會,創(chuàng)新工場AI研究院也花了許多精力去探究與聯(lián)邦學(xué)習(xí)有關(guān)的商業(yè)落地以及現(xiàn)有的科研發(fā)展情況。

      馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020

      8月7日-8月9日,2020年全球人工智能和機(jī)器人峰會(簡稱“CCF-GAIR 2020”)在深圳如期舉辦!CCF-GAIR由中國計算機(jī)學(xué)會(CCF)主辦,香港中文大學(xué)(深圳)、雷鋒網(wǎng)聯(lián)合承辦,鵬城實(shí)驗室、深圳市人工智能與機(jī)器人研究院協(xié)辦,以“AI新基建 產(chǎn)業(yè)新機(jī)遇”為大會主題,致力打造國內(nèi)人工智能和機(jī)器人領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資領(lǐng)域盛會。

      8月9日下午,在「聯(lián)邦學(xué)習(xí)與大數(shù)據(jù)隱私專場」上,創(chuàng)新工場南京人工智能研究院執(zhí)行院長馮霽進(jìn)行了題為「聯(lián)邦學(xué)習(xí):下一代分布式AI協(xié)同合作范式」的演講。

      以下是馮霽老師在大會的演講實(shí)錄,AI科技評論作了不修改原意的整理和編輯:

      近幾年,聯(lián)邦學(xué)習(xí)技術(shù)帶來了非常好的潛在商業(yè)落地場景與創(chuàng)業(yè)機(jī)會,創(chuàng)新工場AI研究院也花了許多精力去探究與聯(lián)邦學(xué)習(xí)有關(guān)的商業(yè)落地以及現(xiàn)有的科研發(fā)展情況。


      一、分布式計算

      首先,我跟大家介紹一項與聯(lián)邦學(xué)習(xí)有關(guān)的技術(shù):分布式計算。

      大家不妨先想想,分布式計算是怎么來的?

       馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020

      以上圖所示自然語言處理模型的大小為例。最早的NLP模型大約有1200萬個參數(shù),截止目前為止最新的GPT-3則有1750億個參數(shù)。不管是模型的大小還是訓(xùn)練集的大小,都在以接近指數(shù)級別的方式在增長。這時候,如果一臺電腦沒有足夠大的容量處理海量數(shù)據(jù),就需要使用分布式算法對數(shù)據(jù)進(jìn)行并行處理。

       馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020

      假如你有超過30T的訓(xùn)練數(shù)據(jù),那么我們就把這30T的數(shù)據(jù)均等地劃分到100臺服務(wù)器上,這樣每臺服務(wù)器就只占30T的1%。應(yīng)用分布式計算時,每一個子節(jié)點(diǎn)只擁有一部分的數(shù)據(jù),每一個子的Worker(進(jìn)程)在本地進(jìn)行一次梯度計算(相當(dāng)于把本地所有數(shù)據(jù)掃一遍),計算出梯度之后,將計算結(jié)果傳到中央服務(wù)器中,再由服務(wù)器把所有的梯度進(jìn)行一遍更新。雷鋒網(wǎng)

      分布式計算的特點(diǎn)是:這些數(shù)據(jù)只有單一擁有者,也就是說,我們看似把數(shù)據(jù)進(jìn)行了某種程度上的劃分,但數(shù)據(jù)的歸屬者只有一個。分布式并行計算的主要目的是為了提升效率。雷鋒網(wǎng)

      有人會問,在分布式計算中,數(shù)據(jù)是不是沒有出本地呢?確實(shí)是沒有出本地,但是在以下的任務(wù)中,它和聯(lián)邦學(xué)習(xí)的區(qū)別還是比較大的。

       

      二、從分布式計算角度理解聯(lián)邦學(xué)習(xí)

      聯(lián)邦學(xué)習(xí)剛被推出時就是分布式計算的一個變體。      馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020

      在之前的范式中,worker一般分布在比較大的集群里,所有worker由一個非常高效的網(wǎng)絡(luò)連接,worker與worker之間的通信效率非常高。但是在聯(lián)邦學(xué)習(xí)中,有很多任務(wù)基本無法承擔(dān)這種通信的代價。比如谷歌的手機(jī)輸入法(最早的聯(lián)邦學(xué)習(xí)應(yīng)用)。每個人的手機(jī)可以看成是一個本地設(shè)備,如果每一次運(yùn)算都要傳一個梯度的信息,那么手機(jī)與云端通信的效率是非常低下的。如果在這種AI計算中用傳統(tǒng)的分布式計算方式進(jìn)行更新,效率會非常低下。      

      馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020

      所以最早的聯(lián)邦學(xué)習(xí)的第一篇算法并沒有談到同態(tài)加密,也沒有談到其他加密算法,就只是用計算來換取通信的效率。傳統(tǒng)的分布式計算在每次進(jìn)行計算時候,本地的計算節(jié)點(diǎn)會把所有的數(shù)據(jù)掃一遍,傳一遍梯度。最早的聯(lián)邦學(xué)習(xí)版本相當(dāng)于是在本地讓模型盡可能收斂之后,再傳到中央服務(wù)器上,這樣就相當(dāng)于是用計算來換通信,解決了To C端聯(lián)邦學(xué)習(xí)的目的。

             馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020      

      剛才所提到的框架是分布式計算的升級版本,但仍然有許多不足。如果僅僅用計算換通信是沒有辦法解決一些現(xiàn)實(shí)問題的,比如:

      1、多數(shù)據(jù)擁有者場景

      當(dāng)我們面臨一個擁有多數(shù)據(jù)owner(擁有者)的場景,很多家醫(yī)院想進(jìn)行協(xié)同合作,這時候場景需要存在一個聯(lián)盟激勵。為什么用戶要加入這個聯(lián)邦學(xué)習(xí)系統(tǒng)中呢?這是傳統(tǒng)的分布式計算所未曾面臨的問題,因為數(shù)據(jù)的擁有者是單一的。此外,節(jié)點(diǎn)可能處于高度不穩(wěn)定的狀態(tài)。比如To C端的手機(jī),有時候會掉線,有時候會沒電,有時候壓根沒有計算反應(yīng)。其次,計算成本非常高,尤其是To C端。也許5G的到來會緩解成本高的問題,但與傳統(tǒng)的分布式機(jī)器學(xué)習(xí)相比,該場景的通信成本相對還是更高的。

      2、數(shù)據(jù)隱私保護(hù)的要求更高

      3、模型的魯棒性/攻防安全問題

      4、數(shù)據(jù)非獨(dú)立同分布現(xiàn)象

      以To C端為例,甲的手機(jī)上的圖像跟乙的手機(jī)上拍的圖像處于高度不平衡的狀態(tài)。比如說一個男生的手機(jī)上只拍了幾百張照片,一個女生的手機(jī)上可能有上萬張照片。除了照片的數(shù)量,照片內(nèi)容也不一樣,女生可能更多是自拍或者人像,男生的照片內(nèi)容則是其他。

       

      三、研究展望

      接下來分享的是我們認(rèn)為在聯(lián)邦學(xué)習(xí)領(lǐng)域值得研究的學(xué)術(shù)問題。

      1、攻擊防御

             馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020      

      一個典型現(xiàn)象是:攻擊者監(jiān)聽了聯(lián)邦學(xué)習(xí)worker節(jié)點(diǎn)上中央服務(wù)器之間的信報,通過監(jiān)聽梯度/參數(shù)信息就可以猜出你的原始數(shù)據(jù)。這一塊已經(jīng)有了較為成熟的解決方案,比如同態(tài)加密、MPC、TEE等技術(shù)。但我們認(rèn)為當(dāng)下這些解決方案并不是最完美的,還存在計算效率不足與部署不方便等等缺陷。       馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020

      上圖是我們?nèi)ツ晁龅陌l(fā)表在NIPS上的毒化訓(xùn)練,給數(shù)據(jù)下毒。數(shù)據(jù)下毒是一種非常獨(dú)特的攻擊方式。我們在訓(xùn)練集上修改肉眼不可見的擾動。如果做了相應(yīng)的修改,任何的分類器經(jīng)受過下毒的訓(xùn)練,當(dāng)它看到干凈的測試樣板之后,基本上做出的決定都是錯誤的。

      聯(lián)邦學(xué)習(xí)的特點(diǎn)是:如果我們只下毒了一個或者多個參與方,有可能把整個模型進(jìn)行毒化,也就是說在libConfuse算法下,我們可以通過下毒的方式攻擊相關(guān)聯(lián)邦學(xué)習(xí)的參與方。

             馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020

      如何設(shè)計一些更為魯棒性的聯(lián)邦學(xué)習(xí)算法來抵御這些攻擊,是我們正在做的事情。

      2、Non-I.I.D非獨(dú)立同分布

      目前聯(lián)邦學(xué)習(xí)主要有三種應(yīng)用:To C、To B和To G。尤其是在To C場景中,絕大多數(shù)情況下,聯(lián)邦學(xué)習(xí)的數(shù)據(jù)會隨著時間的變化而變化。也就是說,你在每一個時間點(diǎn)獲得的數(shù)據(jù)樣本并不是從獨(dú)立同分布中采樣出來的。在傳統(tǒng)機(jī)器學(xué)習(xí)中有一個核心的算法假設(shè),即數(shù)據(jù)都是獨(dú)立同分布的。因此,在非獨(dú)立同分布的場景下,有很多經(jīng)典的機(jī)器學(xué)習(xí)算法沒有辦法被成功應(yīng)用。所以我們認(rèn)為,非獨(dú)立同分布如何配合聯(lián)邦學(xué)習(xí)的框架是一個很重要的學(xué)術(shù)問題。       馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020       

       

      假如隨著時間的遷移,每一個聯(lián)邦學(xué)習(xí)的參與者所擁有的數(shù)據(jù)是不平穩(wěn)的。在這種情況下,集成學(xué)習(xí)能發(fā)揮很好的作用。給大家舉幾個論文的例子(如上圖所示)。第一篇研究是使用了對沖的方式來對沖掉非平穩(wěn)序列的風(fēng)險。第二篇使用了模型重用的方式,因為分布隨著時間的變化而變化,這是可以利用模型重用的集成算法來調(diào)用之前的知識,進(jìn)一步應(yīng)對非平穩(wěn)概念的遷移。


      四、研究方法

      目前在聯(lián)邦學(xué)習(xí)或其他機(jī)器學(xué)習(xí)框架中,常見的一種算法是Gradient Boosting Machine(GBM)。         馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020      

      它是一類串行的計算方法,每一次訓(xùn)練一個分類器,第二個分類器的訓(xùn)練是基于第一次分類器的結(jié)果。這種模型(尤其是在表格的數(shù)據(jù)中)有非常優(yōu)秀的建模結(jié)果,但還是存在許多問題:       馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020       

      首先,因為它是一個串行訓(xùn)練的過程,所以訓(xùn)練成本大。基于這個算法本身的性質(zhì),我們沒辦法將N個分類器同時并行訓(xùn)練。其次,XGBoost很難適應(yīng)隨著分布遷移而產(chǎn)生的跟時序數(shù)據(jù)有關(guān)的問題。最后,像XGBoost之類的算法因自身存在的弊端,難以處理高維的回歸任務(wù)。比如在GitHub的頁面上,不管是XGBoost還是LightGBM對高維的回歸問題都沒有很好的解決方案。       馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020

      為此,我們最近提出Soft Gradient Boosting Machine(軟梯度提升機(jī)):       馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020

      如果每一個基分類器都是可微的話,那么我們就把GBM的整個架構(gòu)連接成一個可相關(guān)圖,然后分別注入本地和全局的損失(兩者恰好等于基分類器GBM中所對應(yīng)的本地?fù)p失)。由于兩個系統(tǒng)是可微分的,我們就可以同時訓(xùn)練所有分類器。第二個好處是,由于這樣的更新方式可以用SGD訓(xùn)練,所以在適應(yīng)streaming data(流數(shù)據(jù))或在線的訓(xùn)練中比傳統(tǒng)的串行的GBM有更好的模型性能體現(xiàn)。       馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020       

      上圖所示是相應(yīng)的實(shí)驗結(jié)果。大家可以看到不管是在聯(lián)邦學(xué)習(xí)還是非分布式的場景下,SGB都比傳統(tǒng)的GBM/XGBoost與聯(lián)邦算法有更好的性能提升。“Federated Soft Gradient Boosting Machine for Streaming Data”是我們剛投出的一篇論文,其中我們結(jié)合GBM算法做了一個聯(lián)邦的版本。

      Federated Ensemble Learning是一個非常值得研究的方向,有助于解決聯(lián)邦學(xué)習(xí)所面臨的大部分場景里的問題:非平穩(wěn)性和非獨(dú)立同分布性。因此,集成算法是我們目前主要研究的課題之一。

      3、去中心化網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的聯(lián)邦學(xué)習(xí)架構(gòu)

      目前大家所接觸的大部分聯(lián)邦學(xué)習(xí)的框架、架構(gòu)、開源代碼基本上都有一個中央服務(wù)器(如下圖所示),中央服務(wù)器會跟每一個局部的參與者進(jìn)行通信。這個通信可以是加密的,也可以不加密,這取決于你對聯(lián)邦學(xué)習(xí)場景里的隱私需求。

             馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020      

      在分布式計算的場景下,我們也可以設(shè)計一個完全去中心化的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)(如下圖所示)。

             馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020   

      這就像楊強(qiáng)老師所說的:羊只能去鄰居家吃草。在上圖所示的全新架構(gòu)里,只有相鄰的節(jié)點(diǎn)之間才能交換梯度信息。如果兩個節(jié)點(diǎn)之間沒有一條邊連著,那么就不可以進(jìn)行通信。

      從機(jī)器學(xué)習(xí)的角度來看,如果通過去中心化的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)來做相應(yīng)的隨機(jī)梯度下降,它能不能收斂?這取決于網(wǎng)絡(luò)連接的強(qiáng)度。如果連接得非常稠密,它就會收斂得跟中心化的一樣好。

      基于這個理論保證,我們是否可以去設(shè)計一個去中心化的聯(lián)邦學(xué)習(xí)架構(gòu),并將這個架構(gòu)與其他一些目前比較火的技術(shù)進(jìn)一步結(jié)合?

      4、聯(lián)盟動機(jī)的經(jīng)濟(jì)學(xué)分析

      這是聯(lián)邦學(xué)習(xí)框架區(qū)別于其他機(jī)器學(xué)習(xí)模型的地方,其中涉及到激勵機(jī)制的分析。


      五、總結(jié)

      綜上,我們認(rèn)為聯(lián)邦學(xué)習(xí)是一類重要的新型分布式人工智能協(xié)同合作平臺,其未來潛在的研究方向包括:

      1、模型安全方面的對抗攻防,比如數(shù)據(jù)下毒等等。

      2、數(shù)據(jù)隱私的保護(hù)機(jī)制,比如設(shè)計除了同態(tài)加密和多方安全計算之外的隱私保護(hù)機(jī)制,以更好保護(hù)本地數(shù)據(jù)。

      3、在聯(lián)邦學(xué)習(xí)框架下設(shè)計能夠適應(yīng)非獨(dú)立同分布的更好的算法。我們認(rèn)為聯(lián)邦集成學(xué)習(xí)也許是解決的方向之一。

      4、設(shè)計新型的網(wǎng)絡(luò)拓?fù)浼軜?gòu),比如是否存在一個更加高效的去中心化的聯(lián)邦學(xué)習(xí)架構(gòu)。

      5、聯(lián)邦學(xué)習(xí)的經(jīng)濟(jì)學(xué)機(jī)制。

       

      Q&A

      提問:針對非獨(dú)立同分布的情況,可不可以用語言信息來解決這個場景?

      馮霽:這是兩個范疇的知識。我認(rèn)為是可以的,相當(dāng)于用Mind Learning的方式去尋找一個能夠適應(yīng)復(fù)雜環(huán)境的更好的算法。我不用一個現(xiàn)有的算法去適應(yīng)非獨(dú)立同分布的問題,而是設(shè)計出一個算法去學(xué)習(xí)適應(yīng)這個環(huán)境。我覺得這應(yīng)該是能夠起作用的方向。

      雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

      馮霽:下一代分布式AI協(xié)同合作范式 | CCF-GAIR 2020

      分享:
      相關(guān)文章
      當(dāng)月熱門文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說
      主站蜘蛛池模板: 狠狠躁夜夜躁人人爽天天bl| 男女互操视频网站在线观看 | 黑人巨大精品欧美视频一区| 人妻熟人中文字幕一区二区| 3P在线| 国产精品17p| 午夜免费视频国产在线| 精品熟女日韩中文十区| 97超级碰碰碰碰久久久久| 91在线公开视频| 久热综合在线亚洲精品| 日韩欧美一卡2卡3卡4卡无卡免费2020| 国产毛多水多高潮高清| 亚洲欧美日韩综合一区二区| 无码午夜| 99久久精品费精品国产| 乱女乱妇熟女熟妇综合网| 亚洲一区二区精品自拍| 夜夜躁很很躁日日躁麻豆| 南京市| 私人毛片免费高清影视院| 色性av| 国产乱老熟女乱老熟女视频| 国产精品美女黑丝流水| 亚洲伊人天堂| 丰腴浓毛粗壮熟女X66AV| 麻豆果冻传媒精品一区| 国产成人精品日本亚洲网站| AV白浆| 影音先锋成人A片| 婷婷四虎东京热无码群交双飞视频 | 上饶市| 国内精品久久久久精免费| 91资源总站| 亚洲精品久久久久久一区二区 | 国产99在线 | 免费| 欧美日韩人妻精品一区二区三区 | 青青草视频在线观看播放| 成年午夜性影院| 久草视频观看| 国产精品久久久久9999高清|