0
AI芯片的競爭早已不是簡單的峰值算力比拼,架構創新、軟硬件的結合、芯片利用率(芯片實測算力/芯片峰值算力)越來越多的被關注。6月23日,鯤云科技發布了全球首款量產數據流AI芯片CAISA,定位高性能AI推理。據悉,CAISA最高可實現95.4%的芯片利用率,較同類芯片提升最高11.6倍。搭載CAISA加速卡可以實現英偉達同類產品最高3.91倍的實測性能。
數據流芯片為什么能實現超高利用率?CAISA在哪些領域優勢明顯?

鯤云科技創始人牛昕宇
什么是數據流芯片?
相比數據流芯片,馮諾依曼架構的芯片更被大部分人所熟知,CPU就是馮諾依曼架構的代表。不過,由于馮諾依曼架構是通過指令執行次序控制計算順序,并通過分離數據搬運與數據計算提供計算通用性。憑借其通用性和廣泛的應用,馮諾依曼架構芯片成為了重要的AI芯片。

基于馮諾依曼的典型指令集架構示意圖
但是,隨著AI算法的不斷演進,AI模型對算力的需求不斷提升,內存性能跟不上計算單元算力的迅速提升,馮諾依曼架構的內存墻問題成了阻礙AI和AI芯片發展的關鍵。打破內存墻瓶頸成為關鍵,可重構、存算一體等創新的架構受到越來越多的關注,數據流芯片也是其中之一。
與馮諾依曼架構芯片不同,數據流芯片是依托數據流流動次序控制計算次序,采用計算流和數據流重疊運行方式消除空閑計算單元,并采用動態配置方式保證對于人工智能算法的通用支持,突破指令集技術對于芯片算力的限制。目前,全球基于數據流方式研究AI芯片的并不多,主要是鯤云、Wave Computing、Sambanova、Groq。

定制數據流計算示意圖

指令集架構與數據流架構在數據流動和計算順序上的區別
全球推出量產數據流AI芯片的目前只有鯤云。以鯤云的CAISA架構為例,數據流架實現AI計算有三大核心挑戰:
高算力性價比:要在保持計算正確前提下,通過不斷壓縮每個空閑時鐘推高芯片實測性能以接近芯片物理極限,讓芯片內的每個時鐘、每個計算單元都在執行有效計算;
高架構通用性:要在保證每個算法在數據流芯片上運行能夠實現高芯片利用率的同時,支持所有主流CNN算法;
高軟件易用性:要讓用戶無需底層數據流架構背景知識,簡單幾步即可實現算法遷移和部署,降低使用門檻。
數據流芯片如何實現最高95.4%的芯片利用率?
鯤云CAISA3.0架構在這三大技術上都有突破。實現高算力性價比的關鍵是時鐘級準確的計算,這也是數據流架構芯片的核心挑戰。
鯤云科技創始人牛昕宇對雷鋒網表示:“時鐘級準確的計算是數據流本身核心開發的挑戰,在架構設計的第一天腦海中就要有一個時鐘精確的概念。不止是架構要時鐘精確,軟件要時鐘精確,開發的模型也要時鐘精確。要做到這一點其實很難,今天我們跟大家說為什么鯤云迭代了三代架構,這里面每一個挑戰都需要大量工程積累,不斷的迭代來做到時鐘精確。”
具體而言,CAISA3.0架構通過數據計算與數據流動的重疊,壓縮計算資源的每一個空閑時鐘;通過算力資源的動態平衡,消除流水線的性能瓶頸;通過數據流的時空映射,最大化復用芯片內的數據流帶寬,減少對外部存儲帶寬的需求。

CAISA3.0架構
這樣的設計使CNN算法的計算數據在CAISA3.0內可以實現不間斷的持續運算,最高可實現95.4%的芯片利用率,在同等峰值算力條件下,可獲得相對于GPU 3倍以上的實測算力,提供更高的算力性價比。
除了高性能,面對復雜多樣的AI需求,AI芯片的通用性也決定著AI芯片能否更廣泛被應用。據悉,CAISA3.0架構可以通過流水線動態重組實現對不同深度學習算法的高性能支持。通過CAISA架構層的數據流引擎、全局數據流網、全局數據流緩存,以及數據流引擎內部的人工智能算子模塊、局部數據流網、局部數據流緩存的分層設計,在數據流配置器控制下,CAISA架構中的數據流連接關系和運行狀態都可以被自動化動態配置,從而生成面向不同AI算法的高性能定制化流水線。

數據流動與數據計算重疊示意圖
說的簡單一些,借助數據流配置器,CAISA架構可以根據不同的AI算法定制適合的流水線,去滿足目標檢測、分類及語義分割等的需求。另外需要補充的是,數據流架構中數據和計算是融合在一起,數據通過PCIe接口輸入,芯片內有少量緩存單元,在兩個數據流連接不是那么完美的時候,起到緩存作用。

CAISA架構中資源配置示意圖
“至于對新算法的支持,我們一方面通過軟件工具不斷迭代,另外CAISA架構也會持續迭代。CAISA支持的8GB DDR能滿足多種算法的組合和存儲,我們考慮了AI長期的發展。”牛昕宇表示。
軟件不僅有助于滿足不斷更新算法的需求,其易用性還是吸引客戶的關鍵。據了解,鯤云專為CAISA3.0架構配備的RainBuilder編譯工具鏈支持從算法到芯片的端到端自動化部署,無需了解架構的底層硬件配置,簡單兩步即可實現算法快速遷移和部署。
鯤云科技合伙人兼研發總監熊超表示“我們支持開發中常用的語言,C、C++、Python接口都提供。在使用方式上,RainBuilder也跟現有市面上比較常見的工具鏈相似。絕大多數情況下,用戶通過代碼上較小的改動就可以將算法切換到鯤云的加速卡上運行。雖然我們底層是數據流架構芯片,但是從使用上來說架構的不同對用戶來說是感知不到的。”
當然,RainBuilder編譯器還可自動提取主流AI開發框架(TensorFlow,Caffe,Pytorch,ONNX等)中開發的深度學習算法的網絡結構和參數信息,并面向CAISA架構進行優化。
鯤云科技合伙人兼COO 王少軍博士對雷鋒網表示:“通過主流開發框架開發出的模型通過編譯器部署到CAISA這個過程是自動化的,只需要跑一個腳本,目前實測的客戶包括已經部署的客戶效率都非常高。當然,我們不排除第一次部署過程中軟件的兼容性或者其他方式會有一些問題。”
CAISA對標英偉達邊緣端旗艦產品
接下來關鍵的問題是,CAISA實際表現如何。鯤云此次發布的CAISA AI芯片采用英特爾28nm工藝,搭載了四個CAISA 3.0引擎,有超過1.6萬個MAC(乘累加)單元,峰值性能可達10.9TOPs。通過PCIe 3.0×4接口與主處理器通信,同時具有雙DDR通道,可為每個CAISA芯片提供超過340Gbps的帶寬。

基于CAISA 芯片,鯤云推出了星空系列邊緣和數據中心計算平臺,X3加速卡和X9加速卡。星空X3加速卡為工業級半高半長單槽規格的PCIe板卡可以與不同類型的計算機設備進行適配,包括個人電腦、工業計算機、網絡視頻錄像機、工作站、服務器。

相較于英偉達邊緣端旗艦產品Xavier,X3可實現1.48-4.12倍的實測性能提升。

X3 vs Xavier 芯片利用率對比圖

X3 vs Xavier 性能對比圖

X3 vs Xavier 延時對比圖
星空X9加速卡定位比星空X3更高,搭載4顆CAISA 芯片,峰值性能43.6TOPS,對標的也是英偉達AI加速卡T4。
X9在ResNet50可達5240FPS,與T4性能接近,在YOLO v3、UNet Industrial等檢測分割網絡,實測性能相較T4有1.83-3.91倍性能提升。在達到最優實測性能下,X9處理延時相比于T4降低1.83-32倍。

X9 vs T4 芯片利用率對比圖

X9 vs T4 性能對比圖

X9 vs T4 延時對比圖
整體而言,憑借CAISA數據流架構的高芯片利用率,實現的實測性能,對芯片峰值算力的要求可大幅降低3-10倍,這可以進一步降低芯片制造成本。目前星空X3加速卡已經推向市場,星空X9加速卡將于今年8月推出。
目前,星空加速卡已在電力、教育、智能遙感、智能制造、智慧城市等領域落地。王少軍說:“我們的低延時優勢確實比較明顯,尤其是工業和自動駕駛行業里,我們的各種客戶都給我們反饋了同樣的信息。當然,作為一家初創公司,軟件生態是我們需要去努力的方向。”
雷鋒網小結
成立于2016年的鯤云科技,團隊在數據流領域有30年的積累的情況下,四年后的2020年才隆重的舉行新品發布會。這讓我們可以了解要將一個突破性的技術推向市場的難度。但無論如何,鯤云作為全球首家量產數據流AI芯片的公司,也讓我們對中國AI芯片的競爭力增加了信心。
當然,CAISA數據流芯片高利用率、低延遲的優勢能否最終成為客戶愿意買單的產品,是決定鯤云成功的關鍵,生態在其中將發揮至關重要的作用。
牛昕宇接受采訪時也說:“當芯片利用率已經接近95%時,證明我們已經將芯片的物理極限發揮出來給用戶了。未來更多的提升方向是軟件的提升,讓客戶更好的去部署。”
相關文章:
鯤云牛昕宇:一個定制化數據流人工智能芯片憑什么滿足眾多AI場景需求?
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。