全球首款量產數據流AI芯片面世！95.4%利用率實現11.6倍提升

本文作者：包永剛

2020-06-25 10:14

導語：數據流芯片為什么能實現超高利用率？在哪些領域有應用優勢？

AI芯片的競爭早已不是簡單的峰值算力比拼，架構創新、軟硬件的結合、芯片利用率（芯片實測算力/芯片峰值算力）越來越多的被關注。6月23日，鯤云科技發布了全球首款量產數據流AI芯片CAISA，定位高性能AI推理。據悉，CAISA最高可實現95.4%的芯片利用率，較同類芯片提升最高11.6倍。搭載CAISA加速卡可以實現英偉達同類產品最高3.91倍的實測性能。

數據流芯片為什么能實現超高利用率？CAISA在哪些領域優勢明顯？

全球首款量產數據流AI芯片面世！95.4%利用率實現11.6倍提升

鯤云科技創始人牛昕宇

什么是數據流芯片？

相比數據流芯片，馮諾依曼架構的芯片更被大部分人所熟知，CPU就是馮諾依曼架構的代表。不過，由于馮諾依曼架構是通過指令執行次序控制計算順序，并通過分離數據搬運與數據計算提供計算通用性。憑借其通用性和廣泛的應用，馮諾依曼架構芯片成為了重要的AI芯片。

全球首款量產數據流AI芯片面世！95.4%利用率實現11.6倍提升

基于馮諾依曼的典型指令集架構示意圖

但是，隨著AI算法的不斷演進，AI模型對算力的需求不斷提升，內存性能跟不上計算單元算力的迅速提升，馮諾依曼架構的內存墻問題成了阻礙AI和AI芯片發展的關鍵。打破內存墻瓶頸成為關鍵，可重構、存算一體等創新的架構受到越來越多的關注，數據流芯片也是其中之一。

與馮諾依曼架構芯片不同，數據流芯片是依托數據流流動次序控制計算次序，采用計算流和數據流重疊運行方式消除空閑計算單元，并采用動態配置方式保證對于人工智能算法的通用支持，突破指令集技術對于芯片算力的限制。目前，全球基于數據流方式研究AI芯片的并不多，主要是鯤云、Wave Computing、Sambanova、Groq。

全球首款量產數據流AI芯片面世！95.4%利用率實現11.6倍提升

定制數據流計算示意圖

全球首款量產數據流AI芯片面世！95.4%利用率實現11.6倍提升

指令集架構與數據流架構在數據流動和計算順序上的區別

全球推出量產數據流AI芯片的目前只有鯤云。以鯤云的CAISA架構為例，數據流架實現AI計算有三大核心挑戰：

高算力性價比：要在保持計算正確前提下，通過不斷壓縮每個空閑時鐘推高芯片實測性能以接近芯片物理極限，讓芯片內的每個時鐘、每個計算單元都在執行有效計算；
高架構通用性：要在保證每個算法在數據流芯片上運行能夠實現高芯片利用率的同時，支持所有主流CNN算法；
高軟件易用性：要讓用戶無需底層數據流架構背景知識，簡單幾步即可實現算法遷移和部署，降低使用門檻。

數據流芯片如何實現最高95.4%的芯片利用率？

鯤云CAISA3.0架構在這三大技術上都有突破。實現高算力性價比的關鍵是時鐘級準確的計算，這也是數據流架構芯片的核心挑戰。

鯤云科技創始人牛昕宇對雷鋒網表示：“時鐘級準確的計算是數據流本身核心開發的挑戰，在架構設計的第一天腦海中就要有一個時鐘精確的概念。不止是架構要時鐘精確，軟件要時鐘精確，開發的模型也要時鐘精確。要做到這一點其實很難，今天我們跟大家說為什么鯤云迭代了三代架構，這里面每一個挑戰都需要大量工程積累，不斷的迭代來做到時鐘精確。”

具體而言，CAISA3.0架構通過數據計算與數據流動的重疊，壓縮計算資源的每一個空閑時鐘；通過算力資源的動態平衡，消除流水線的性能瓶頸；通過數據流的時空映射，最大化復用芯片內的數據流帶寬，減少對外部存儲帶寬的需求。

全球首款量產數據流AI芯片面世！95.4%利用率實現11.6倍提升

CAISA3.0架構

這樣的設計使CNN算法的計算數據在CAISA3.0內可以實現不間斷的持續運算，最高可實現95.4%的芯片利用率，在同等峰值算力條件下，可獲得相對于GPU 3倍以上的實測算力，提供更高的算力性價比。

除了高性能，面對復雜多樣的AI需求，AI芯片的通用性也決定著AI芯片能否更廣泛被應用。據悉，CAISA3.0架構可以通過流水線動態重組實現對不同深度學習算法的高性能支持。通過CAISA架構層的數據流引擎、全局數據流網、全局數據流緩存，以及數據流引擎內部的人工智能算子模塊、局部數據流網、局部數據流緩存的分層設計，在數據流配置器控制下，CAISA架構中的數據流連接關系和運行狀態都可以被自動化動態配置，從而生成面向不同AI算法的高性能定制化流水線。

全球首款量產數據流AI芯片面世！95.4%利用率實現11.6倍提升

數據流動與數據計算重疊示意圖

說的簡單一些，借助數據流配置器，CAISA架構可以根據不同的AI算法定制適合的流水線，去滿足目標檢測、分類及語義分割等的需求。另外需要補充的是，數據流架構中數據和計算是融合在一起，數據通過PCIe接口輸入，芯片內有少量緩存單元，在兩個數據流連接不是那么完美的時候，起到緩存作用。

全球首款量產數據流AI芯片面世！95.4%利用率實現11.6倍提升

CAISA架構中資源配置示意圖

“至于對新算法的支持，我們一方面通過軟件工具不斷迭代，另外CAISA架構也會持續迭代。CAISA支持的8GB DDR能滿足多種算法的組合和存儲，我們考慮了AI長期的發展。”牛昕宇表示。

軟件不僅有助于滿足不斷更新算法的需求，其易用性還是吸引客戶的關鍵。據了解，鯤云專為CAISA3.0架構配備的RainBuilder編譯工具鏈支持從算法到芯片的端到端自動化部署，無需了解架構的底層硬件配置，簡單兩步即可實現算法快速遷移和部署。

鯤云科技合伙人兼研發總監熊超表示“我們支持開發中常用的語言，C、C++、Python接口都提供。在使用方式上，RainBuilder也跟現有市面上比較常見的工具鏈相似。絕大多數情況下，用戶通過代碼上較小的改動就可以將算法切換到鯤云的加速卡上運行。雖然我們底層是數據流架構芯片，但是從使用上來說架構的不同對用戶來說是感知不到的。”

當然，RainBuilder編譯器還可自動提取主流AI開發框架（TensorFlow，Caffe，Pytorch，ONNX等）中開發的深度學習算法的網絡結構和參數信息，并面向CAISA架構進行優化。

鯤云科技合伙人兼COO 王少軍博士對雷鋒網表示：“通過主流開發框架開發出的模型通過編譯器部署到CAISA這個過程是自動化的，只需要跑一個腳本，目前實測的客戶包括已經部署的客戶效率都非常高。當然，我們不排除第一次部署過程中軟件的兼容性或者其他方式會有一些問題。”

CAISA對標英偉達邊緣端旗艦產品

接下來關鍵的問題是，CAISA實際表現如何。鯤云此次發布的CAISA AI芯片采用英特爾28nm工藝，搭載了四個CAISA 3.0引擎，有超過1.6萬個MAC（乘累加）單元，峰值性能可達10.9TOPs。通過PCIe 3.0×4接口與主處理器通信，同時具有雙DDR通道，可為每個CAISA芯片提供超過340Gbps的帶寬。

全球首款量產數據流AI芯片面世！95.4%利用率實現11.6倍提升