<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
      人工智能 正文
      發(fā)私信給亞萌
      發(fā)送

      0

      百度引入Ring Allreduce算法,大規(guī)模提升模型訓(xùn)練速度

      本文作者: 亞萌 2017-02-22 19:25
      導(dǎo)語:百度硅谷人工智能實(shí)驗(yàn)室(SVAIL)宣布將Ring Allreduce算法引進(jìn)深度學(xué)習(xí)領(lǐng)域,這讓基于GPU訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練速度顯著提高。

      雷鋒網(wǎng)消息,美國西部時間2月21日,百度硅谷人工智能實(shí)驗(yàn)室(SVAIL)宣布將Ring Allreduce算法引進(jìn)深度學(xué)習(xí)領(lǐng)域,這讓基于GPU訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練速度顯著提高。

      Ring Allreduce是高性能計算(HPC)領(lǐng)域內(nèi)一個眾所周知的算法,但在深度學(xué)習(xí)領(lǐng)域內(nèi)的應(yīng)用相對較少。而百度SVAIL實(shí)驗(yàn)室研究員Andrew Gibiansky也錄制了一個視頻介紹了關(guān)于Ring Allreduce的基本情況。

         

      高效并行訓(xùn)練的需求

      隨著神經(jīng)網(wǎng)絡(luò)參數(shù)越來越龐大,從幾億個參數(shù)與到數(shù)十億參數(shù),所需的GPU運(yùn)算節(jié)點(diǎn)也在增加。然而,節(jié)點(diǎn)數(shù)量越多,整個系統(tǒng)的效率就會降低。

      深度學(xué)習(xí)在多個GPU上訓(xùn)練神經(jīng)網(wǎng)絡(luò)通常比較困難,因?yàn)榇蠹移毡椴捎玫姆椒ㄊ牵尪鄠€GPU把數(shù)據(jù)發(fā)送給一個reducer GPU上,這會造成一種通信瓶頸,整個訓(xùn)練速度會因此拖慢。而且要訓(xùn)練的數(shù)據(jù)越多,則帶寬瓶頸問題就顯得越嚴(yán)重。

      百度引入Ring Allreduce算法,大規(guī)模提升模型訓(xùn)練速度

      而ring allreduce算法移除了這種瓶頸,減少GPU發(fā)送數(shù)據(jù)花費(fèi)的時間,而把時間更多用在處理有用工作上。SVAIL發(fā)布的博文中這樣說道:

      “ring allreduce 是這樣一種算法——其通信成本是恒定的,與系統(tǒng)中的 GPU 的數(shù)量無關(guān),并且僅由系統(tǒng)中的 GPU 之間的最慢連接來確定。事實(shí)上,如果在通信成本上你只考慮帶寬這一因素(并忽略延遲),那么 ring allreduce 就是一個最佳的通信算法 。


      算法的進(jìn)行分兩步:第一步,scatter-reduce;第二步,allgather。在第一步中,GPU 將交換數(shù)據(jù),使得每個 GPU 最終都有一個最終結(jié)果的數(shù)據(jù)塊。在第二步中,GPU 將交換那些塊,使得所有 GPU 最終得到完整的最后結(jié)果?!?/p>

      Ring Allreduce 中的 GPU 被布置在一個邏輯環(huán)路(logical ring)之中。每個 GPU 左右兩個各有一個 GPU,并且只從左邊的 GPU 接收數(shù)據(jù),再把數(shù)據(jù)發(fā)送至右邊的 GPU。

      百度引入Ring Allreduce算法,大規(guī)模提升模型訓(xùn)練速度

      Ring Allreduce在接受采訪時說道:

      “Ring allreduce可以讓我們在多設(shè)備和多節(jié)點(diǎn)的情況下,更加有效地平均梯度。在訓(xùn)練中使用這個帶寬優(yōu)化的算法,你可以顯著減少通信開銷,并由此擴(kuò)展到更多的設(shè)備上,同時仍然保留同步隨機(jī)梯度下降的確定性和可預(yù)測的收斂性。”

      百度已經(jīng)用這個算法來訓(xùn)練其語音識別模型,實(shí)驗(yàn)證明,與使用一個單獨(dú)的reducer GPU相比,ring allreduce 可以將一個神經(jīng)網(wǎng)絡(luò)在40個GPU上的訓(xùn)練速度提升31倍。

      百度也將這算法分享出來,發(fā)布了一個演示該 allreduce 算法的 C 語言庫,也將該 allreduce 以補(bǔ)丁的形式整合到 TensorFlow 中。

      另一個HPC與機(jī)器學(xué)習(xí)結(jié)合的例子

      雷鋒網(wǎng)此前也報道過,最近日本東京技術(shù)研究院宣布,將在今年夏天啟動日本“最快的AI超級計算機(jī)”項目,這個超級計算機(jī)名為Tsubame3.0,使用的是英偉達(dá)GPU加速芯片,使其性能較以往提升2倍。HPC市場與快速興起的AI市場有很大不一樣,超級計算機(jī)以往被用于例如天氣預(yù)測、氣候建模、太空和核模擬等領(lǐng)域,而針對AI優(yōu)化的芯片開始將這兩個領(lǐng)域結(jié)合起來。而百度這次,則將HPC領(lǐng)域的軟件技術(shù)應(yīng)用于深度學(xué)習(xí)領(lǐng)域,看起來,HPC和機(jī)器學(xué)習(xí)這兩個領(lǐng)域,正在以非常快的速度融合。

      Via Tomshardware

      更多雷鋒網(wǎng)相關(guān)文章:

      三星計劃投入 10 億美元收購 AI 公司

      AI加持,計算機(jī)要擁有嗅覺了

      雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

      百度引入Ring Allreduce算法,大規(guī)模提升模型訓(xùn)練速度

      分享:
      相關(guān)文章

      編輯

      關(guān)注人工智能(AI)報道
      當(dāng)月熱門文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗(yàn)證郵箱
      您的郵箱還未驗(yàn)證,完成可獲20積分喲!
      請驗(yàn)證您的郵箱
      立即驗(yàn)證
      完善賬號信息
      您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說
      主站蜘蛛池模板: 久久国产精品一国产精品| 本道无码一区二区久久激情| 少妇人妻偷人精品一区二区| av熟女在线更新| 亚洲天堂网在线播放| 午夜在线不卡| 无码不卡免费一级毛片视频| 人妻另类 专区 欧美 制服| 国产xxxx做受视频| 人妻无码精品| 91精品人妻丰满熟妇| 久久精品国产久精国产| 亚洲精品日本久久久中文字幕| 91视频在线| 国产真实乱XXXⅩ视频| 大肉大捧一进一出好爽视色大师 | 尹人97| 国内精品久久久久伊人aⅴ| 日韩中文字幕v亚洲中文字幕 | 成人无码av一区二区| 东宁县| 上司人妻互换中文字幕| 中文字幕A片免费观看| 色av天堂| 国内黄色视频| 国产亚洲精品VA片在线播放| 日本一区二区精品色超碰| 亚洲精品成人一二三专区| 三上悠亚日韩精品二区| 40岁成熟女人牲交片| 欧美黑人欧美精品刺激| 亚洲老妇女亚洲老熟女久| 国产-第1页-浮力影院| 日韩福利在线视频| AV不卡在线| 黑人无码av| 日韩人妻无码专区一本| 99在线免费观看| 亚洲真人无码永久在线| 成av人电影在线观看| 手机永久无码国产av毛片|