0
| 本文作者: 天諾 | 2016-06-23 11:55 |

編者按:百度首席科學官吳恩達在ISC大會上談到了超級計算能力如何在人工智能領域里應用,他的同事,百度硅谷人工智能實驗室高級研究員Greg Diamos在參加紐約第33屆機器學習國際大會上發表了關于基于GPU的深度學習論文。
Greg Diamos是百度硅谷人工智能實驗室高級研究員,也是機器學習領域里的前沿人物。在加入百度公司之前,他在NVIDIA公司擔任研究科學家和架構師(主要負責GPU流媒體多處理器和CUDA軟件)。 基于這些從業背景,Diamos很自然地進入到基于GPU的深度學習領域。在介紹論文之前,Diamos回答一些問題,關于他的研究和他對機器學習的未來愿景。
在機器學習領域有兩股強大力量,一個是大數據,或者說是隨著互聯網發展所帶來的大數據集;
另一個是深度學習,或者說是探索如何高效訓練非常深度的人工智能網絡。這兩股力量結合在一起,驅動了很多硬件快速發展。
深度學習當然可靠,它已經是一項相當領先的技術,能夠解決真實世界里的計算機視覺和語言識別問題。很多領域里的問題之前都被認為是無法解決的,但得益于深度學習技術,目前都獲得了很大突破。
高效訓練深度人工神經網絡的能力,加上海量訓練數據,讓機器學習陷入到了一個計算限制體系之中,即便是世界上運轉速度最快的計算機也會遇到瓶頸。我們已經發現,一個運算速度更快的電腦能讓應用程序有更好的表現,舉個例子,速度越快的計算機會有更高的語音識別準確度。
遞歸神經網絡是能夠轉化數據序列的功能——舉個例子,他們可以把音頻信息轉化成文本,或是把一個英語句子轉化成一個中文句子。遞歸神經網絡和其他深度人工神經網絡很相似,但最主要的不同就是遞歸神經網絡是按順序操作的(比如,一個任意長度的音頻信號),而不是固定大小的數據(比如一個固定大小的圖片)。
事實證明,通常深度學習算法會受到計算機計算能力的束縛,我們還沒有想出如何在大型處理集群的理論極限上訓練深度神經網絡,所以對我們來說這里蘊藏了一個很大的機遇。我們在百度所知道的最快的遞歸神經網絡訓練系統得持續性能,和世界上處理速度最快的計算機的理論峰值相差大約2500倍。
我們工作的目的之一,就是試圖彌補這一差距,訓練深度遞歸神經網絡的可擴展性。通過開發GPU,讓每個處理器的工作效率提高30倍,可擴展性也變得更強。我們的技術提升了16倍的可擴展性,比如想實現某個高性能處理級別,利用我們的技術需要8個GPU,而不使用我們的技術則需要128個GPU。在整個訓練過程中,我們使用了128個GPU,相比于在單個GPU上的31%峰值浮點計算吞吐能力,我們實現了支持28%峰值浮點計算吞吐能力。
GPU和機器學習密切相關,特別是深層神經網絡,GPU對你在百度研究和開發工作的重要程度如何? GPU對于機器學習來說非常重要,因為它有很高的計算吞吐量,特別是對于大多數機器休息和深度學習來說,都存在計算局限。
相比于其他技術,在大規模計算集群上進行可擴展訓練,可以在更大的數據集合上訓練更大的神經網絡。
最近五年的時間,我關注了兩件事情:峰值浮點吞吐量和支持深度學習的軟件。到目前為止,這兩類都是由GPU引領的,但其中肯定會有競爭空間。如果其他處理器也想在這一領域里競爭,那么他們需要認真對待軟件,特別地,利用簡單C語言接口開發深度學習原始庫會更容易實現峰值性能。對于技術可擴展性的局限問題,如果展望未來的話,我希望未來二十年所開發的處理器可以在300瓦特下以10 PFLOP/s和25MW下以150 EFLOP/s的速度訓練深度學習模型。(注:一個PFLOPS(petaFLOPS)等于每秒一千萬億(=10的15次方)次的浮點運算。)
我的研究能夠更快速地訓練機器學習模型,到目前為止,不少研究成果已經轉化成了更好的應用效果,比如百度在語音識別的準確度上有了很大提升。我認為,對于那些開發高性能計算系統的人來說,這傳達了一個非常重要的信息——他們開發更快速的系統,我們應用機器學習解決實際問題,這之間存在著極密切的關聯。
VIA hpcwire
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。