英偉達的新GPU來了，FPGA和ASIC要扔掉嗎？

本文作者：楊曉凡

2017-05-11 15:02

導語：黃仁勛在GTC2017上發布了新的GPU Volta，最大的亮點是推理性能的成倍提高

雷鋒網AI科技評論消息，美國時間5月10日，NVIDIA CEO黃仁勛在開發者大會GTC2017上發布新一代GPU架構Volta，首款核心為GV100，采用臺積電12nm制程，最大亮點是成倍提升了推理性能，意欲在目前稱霸機器學習訓練場景的基礎上，在推理場景也成為最佳商用選擇。

GV100 GPU

英偉達的新GPU來了，FPGA和ASIC要扔掉嗎？

據雷鋒網了解，Volta架構GV100 GPU采用臺積電（TSMC）12nm FFN制程，具有5120個CUDA核心。相比上一代16nm制程的Pascal架構GPU GP100，晶體管數目增加了38%，達到了驚人的211億個；核心面積也繼續增加33%，達到令人生畏的815mm²，約等于一塊Apple Watch的面積，據黃仁勛稱這樣的面積已經達到了制造工藝極限。隨著核心的增大，GV100的單、雙精度浮點性能也大幅提升了41%。然而這還不是重點，為了滿足GPU在機器學習中的性能需求，Volta架構中引入了新的張量運算指令Tensor Core，讓機器學習中訓練速度提升約3倍、推理性能提升約10倍（相比上一代自家GPU GP100）。

GV100搭載在TESLA V100開發板上亮相，配合來自三星的16GB HBM2顯存，顯存帶寬也達到了900GB/s之高。

英偉達的新GPU來了，FPGA和ASIC要扔掉嗎？

根據現場演講PPT，推理場景下，V100比上一代搭載GP100 CPU的P100板卡，圖像處理能力提升了約10倍，延遲也下降了約30%。在這樣的性能提升之下，GPU已經可以讓FPGA和ASIC幾乎沒有用武之地，在商用場景中幾乎滿足全部計算需求。（詳細分析見文末）

DGX-1V、DGX Station

英偉達的新GPU來了，FPGA和ASIC要扔掉嗎？

隨著GV100 GPU發布，NVIDIA的深度學習超級計算機也進行了升級。老款DGX-1把原有Pascal GPU升級為Volta GPU，名字也更新為DGX-1V。它內置八塊 Tesla V100開發板，合計顯存128G、運算能力為 960 Tensor TFLOPS，即將邁入下一個時代。黃仁勛表示，過去 Titan X 需花費八天訓練的神經網絡，用 DGX-1V 只需八個小時。它相當于是“把 400 個服務器裝進一個盒子里”。

DGX Station 則是縮小版的 DGX-1V，黃仁勛稱其為“Personal DGX”，堪稱是終極個人深度學習電腦，各方面指標均為DGX-1V的一半，但仍然已經非常強大。英偉達內部使用DGX Station已經很久，每個工程師要么有 DGX-1V，要么有 DGX Station，再要么兩個都有。既然它確實能夠滿足工程師的需求，英偉達決定把這款產品推廣給公眾市場。

NVIDIA意圖通過GV100完全稱霸機器學習硬件市場

據雷鋒網AI科技評論了解，機器學習中需要用到高計算性能的場景有兩種，一種是訓練，通過反復計算來調整神經網絡架構內的參數；另一種是推理，用已經確定的參數批量化解決預定任務。而在這兩種場景中，共有三種硬件在進行競爭，GPU、FPGA和ASIC。

GPU（以前是Graphics Processing Unit圖形計算單元，如今已經是General Processing Unit通用計算單元）具有高的計算能力、高級開發環境、不影響機器學習算法切換的優點，雖然同等計算能力下能耗最高，但仍然在算法開發和機器學習訓練場景中占據絕對的市場地位。

FPGA（Field－Programmable Gate Array，現場可編程矩陣門）是一種半成型的硬件，需要通過編程定義其中的單元配置和鏈接架構才能進行計算，相當于也具有很高的通用性，功耗也較低，但開發成本很高、不便于隨時修改，訓練場景下的性能不如GPU。

ASIC（Application Specific Integrated Circuits，專用集成電路）是根據確定的算法設計制造的專用電路，看起來就是一塊普通的芯片。由于是專用電路，可以高效低能耗地完成設計任務，但是由于是專用設計的，所以只能執行本來設計的任務，在做出來以后想要改變算法是不可能的。谷歌的TPU（Tensor Processing Unit張量處理單元）就是一種介于ASIC和FPGA之間的芯片，只有部分的可定制性，目的是對確定算法的高效執行。

所以目前的狀況是，雖然GPU在算法開發和機器學習訓練場景中占有絕對地位；但是由于FPGA和ASIC在任務和算法確定的情況下，在長期穩定大規模執行（推理）方面有很大優勢，所以GPU跟FPGA和ASIC之間還算互有進退，尤其GPU相同性能下功耗很高，對大規模計算中心來說電費都是很高的負擔。但隨著GV100對推理計算能力的約10倍提升，商用場景下已經沒有必要為了推理場景更換硬件了，同一套GPU可以在訓練場景的計算能力和推理場景的計算能力同時達到同功耗下最佳，還具有最好的拓展和修改能力，簡直別無所求。

面對提升如此明顯的GPU，一眾投身機器學習硬件的FGPA和ASIC廠商前景令人擔憂。也許現在唯一能讓他們松口氣的就是GV100 GPU的量產出貨時間要到2017年三四季度。等2018年，希望大規模部署后的GV100能用成倍提升后的性能給我們帶來新的驚喜。

AI科技評論招業界記者啦！

在這里，你可以密切關注海外會議的大牛演講；可以采訪國內巨頭實驗室的技術專家；對人工智能的動態了如指掌；更能深入剖析AI前沿的技術與未來！

如果你：

＊對人工智能有一定的興趣或了解

* 求知欲強，具備強大的學習能力

* 有AI業界報道或者媒體經驗優先

簡歷投遞：

lizongren@leiphone.com

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。