^{<sub id="jgr5k"></sub>}

百度引入Ring Allreduce算法，大規(guī)模提升模型訓(xùn)練速度

本文作者：亞萌

2017-02-22 19:25

導(dǎo)語：百度硅谷人工智能實(shí)驗(yàn)室（SVAIL）宣布將Ring Allreduce算法引進(jìn)深度學(xué)習(xí)領(lǐng)域，這讓基于GPU訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練速度顯著提高。

雷鋒網(wǎng)消息，美國西部時間2月21日，百度硅谷人工智能實(shí)驗(yàn)室（SVAIL）宣布將Ring Allreduce算法引進(jìn)深度學(xué)習(xí)領(lǐng)域，這讓基于GPU訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練速度顯著提高。

Ring Allreduce是高性能計算（HPC）領(lǐng)域內(nèi)一個眾所周知的算法，但在深度學(xué)習(xí)領(lǐng)域內(nèi)的應(yīng)用相對較少。而百度SVAIL實(shí)驗(yàn)室研究員Andrew Gibiansky也錄制了一個視頻介紹了關(guān)于Ring Allreduce的基本情況。

高效并行訓(xùn)練的需求

隨著神經(jīng)網(wǎng)絡(luò)參數(shù)越來越龐大，從幾億個參數(shù)與到數(shù)十億參數(shù)，所需的GPU運(yùn)算節(jié)點(diǎn)也在增加。然而，節(jié)點(diǎn)數(shù)量越多，整個系統(tǒng)的效率就會降低。

深度學(xué)習(xí)在多個GPU上訓(xùn)練神經(jīng)網(wǎng)絡(luò)通常比較困難，因?yàn)榇蠹移毡椴捎玫姆椒ㄊ牵尪鄠€GPU把數(shù)據(jù)發(fā)送給一個reducer GPU上，這會造成一種通信瓶頸，整個訓(xùn)練速度會因此拖慢。而且要訓(xùn)練的數(shù)據(jù)越多，則帶寬瓶頸問題就顯得越嚴(yán)重。

百度引入Ring Allreduce算法，大規(guī)模提升模型訓(xùn)練速度

而ring allreduce算法移除了這種瓶頸，減少GPU發(fā)送數(shù)據(jù)花費(fèi)的時間，而把時間更多用在處理有用工作上。SVAIL發(fā)布的博文中這樣說道：

“ring allreduce 是這樣一種算法——其通信成本是恒定的，與系統(tǒng)中的 GPU 的數(shù)量無關(guān)，并且僅由系統(tǒng)中的 GPU 之間的最慢連接來確定。事實(shí)上，如果在通信成本上你只考慮帶寬這一因素（并忽略延遲），那么 ring allreduce 就是一個最佳的通信算法。

算法的進(jìn)行分兩步：第一步，scatter-reduce；第二步，allgather。在第一步中，GPU 將交換數(shù)據(jù)，使得每個 GPU 最終都有一個最終結(jié)果的數(shù)據(jù)塊。在第二步中，GPU 將交換那些塊，使得所有 GPU 最終得到完整的最后結(jié)果?！?/p>

Ring Allreduce 中的 GPU 被布置在一個邏輯環(huán)路（logical ring）之中。每個 GPU 左右兩個各有一個 GPU，并且只從左邊的 GPU 接收數(shù)據(jù)，再把數(shù)據(jù)發(fā)送至右邊的 GPU。

百度引入Ring Allreduce算法，大規(guī)模提升模型訓(xùn)練速度

Ring Allreduce在接受采訪時說道：

“Ring allreduce可以讓我們在多設(shè)備和多節(jié)點(diǎn)的情況下，更加有效地平均梯度。在訓(xùn)練中使用這個帶寬優(yōu)化的算法，你可以顯著減少通信開銷，并由此擴(kuò)展到更多的設(shè)備上，同時仍然保留同步隨機(jī)梯度下降的確定性和可預(yù)測的收斂性。”

百度已經(jīng)用這個算法來訓(xùn)練其語音識別模型，實(shí)驗(yàn)證明，與使用一個單獨(dú)的reducer GPU相比，ring allreduce 可以將一個神經(jīng)網(wǎng)絡(luò)在40個GPU上的訓(xùn)練速度提升31倍。

百度也將這算法分享出來，發(fā)布了一個演示該 allreduce 算法的 C 語言庫，也將該 allreduce 以補(bǔ)丁的形式整合到 TensorFlow 中。

另一個HPC與機(jī)器學(xué)習(xí)結(jié)合的例子

雷鋒網(wǎng)此前也報道過，最近日本東京技術(shù)研究院宣布，將在今年夏天啟動日本“最快的AI超級計算機(jī)”項目，這個超級計算機(jī)名為Tsubame3.0，使用的是英偉達(dá)GPU加速芯片，使其性能較以往提升2倍。HPC市場與快速興起的AI市場有很大不一樣，超級計算機(jī)以往被用于例如天氣預(yù)測、氣候建模、太空和核模擬等領(lǐng)域，而針對AI優(yōu)化的芯片開始將這兩個領(lǐng)域結(jié)合起來。而百度這次，則將HPC領(lǐng)域的軟件技術(shù)應(yīng)用于深度學(xué)習(xí)領(lǐng)域，看起來，HPC和機(jī)器學(xué)習(xí)這兩個領(lǐng)域，正在以非常快的速度融合。

Via Tomshardware

更多雷鋒網(wǎng)相關(guān)文章：

三星計劃投入 10 億美元收購 AI 公司

AI加持，計算機(jī)要擁有嗅覺了

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。