0
AI、5G、云計算技術的發展已經開始改變世界,數據中心作為承載這些技術,支撐數字化轉型的重要載體,面臨著眾多挑戰。這其中,已有的通用CPU和GPU不能完全滿足快速變化的應用需求,性能更強大,更加專用,更加異構的芯片更能滿足數據中心需求。

芯片巨頭們都看到了這樣的需求和趨勢,通過收購或者自研擁有了更全面的芯片類型。雷鋒網此前介紹過,在數據中心占有優勢的英偉達先是在去年十月發布了首代DPU BlueField-2。今年4月,英偉達首席執行官黃仁勛在GTC 21上又宣布英偉達數據中心芯片戰略升級為GPU+CPU+DPU,三類芯片,逐年飛躍,自研Arm架構CPU Grace也同時亮相。
DPU(Data Processing Unit)作為一個不被大部分人所熟知的芯片類型,其價值是什么?為什么DPU能在數據中心“上位”?數據中心的未來為什么是3U一體?
DPU的雙重價值
了解DPU的價值之前,先解釋為什么需要DPU。黃仁勛此前發布DPU時表示,當下的數據中心是由軟件定義的,這使得數據中心更加靈活的同時,也產生了巨大的負擔,數據中心基礎架構的運行能夠消耗20%-30%的CPU核,因此需要一種新的處理器,也就是DPU。
或者說,以CPU為中心的數據中心架構已經不能滿足需求,以數據為中心才能更好滿足市場和應用需求。英偉達網絡事業部亞太區市場開發高級總監宋慶春在本周的一場溝通會中表示:“以前計算規模和數據量沒那么大,馮諾依曼架構很好地解決了提高計算性能的問題,隨著數據量越來越大,以及AI技術的發展,傳統的計算模型會造成網絡擁塞,繼續提升數據中心的性能面臨挑戰。”

以數據為中心的架構,意味著數據在哪計算就在哪。宋慶春指出,以數據為中心的新架構可以解決網絡傳輸中的瓶頸問題或丟包問題,典型通信延時可以從30-40微秒降低到3-4秒,有10倍的性能提升。
更具體地說,英偉達DPU屬于SoC,集三個關鍵要素于一身:
行業標準的、最高性能及軟件可編程的多核CPU,通常基于廣泛的Arm架構,與其SoC組件密切配合;
高性能網絡接口,能以線速或網絡中的可用速度解析、處理數據,并高效地將數據傳輸到GPU和CPU。
各種靈活和可編程的加速引擎,可以卸載AI、機器學習、安全、電信和存儲等應用,并提升性能。
也就是說,DPU能針對安全、網絡、存儲、AI、HPC等業務進行加速,這是DPU的第一層價值。而DPU的第二層價值在于為以數據為中心的計算架構提供了創新的思路,能夠實現以前難以或無法實現的功能。
以前的數據中心所有操作都由CPU完成,不僅需要很多CPU內核,效率也很低。如果將一些操作,比如OVS(Open vSwitch,是分布式虛擬多層交換機的開源實現)卸載到DPU上運行,不僅可以提升效率,減少CPU的利用率,還能實現業務的隔離。

宋慶春舉了兩個例子,在云場景下,英偉達和VMWare共同開發了Monterey項目,VMWare把它在Hypervisor里的一些功能卸載到DPU上,比如防火墻、存儲、管理等,這樣把業務和基礎設施操作完全隔離,實現了高安全性,也實現了裸金屬的業務性能。
“這是VMWare第一次把他的源代碼開放給合作伙伴,共同開發基于VMWare企業級的云解決方案。”宋慶春強調。
另一個例子是英偉達與RedHat的合作。RedHat不管在數據中心運行容器還是虛擬化,即便使用所有的CPU核來運行虛擬化或容器,也沒有辦法達到100G線速。這時,采用DPU運行Hypervisor、OVS或容器操作,可以在不消耗任何CPU的情況下以實現100G甚至200G全線速,并將CPU資源全部提供給業務。
DPU能帶來多少提升?
“我們最開始選擇DPU,是因為遇到了傳統服務器帶寬瓶頸,我們想解決網絡性能瓶頸的問題,也想降低成本。”UCloud技術專家馬彥青進表示,“雙方最開始都有相同的認知,那就是DPU可以實現硬件的卸載,軟件和硬件的結合會成為未來的趨勢。”
借助DPU和與之匹配的軟件棧DOCA,UCloud實現了一系列的數據中心性能提升。
馬彥青介紹,UCloud原先的網絡架構使用的是VPC網關,作為裸金屬服務器之間的VPC之間劃分的方法,需要很多網關服務器集群來進行管理,集群服務器本身就帶來了成本挑戰(大概4-8臺服務器是一個小集群),當跨網關的時候會有帶寬瓶頸。有了DPU就可以將VPC管理集成到DPU內部,包括OVS包轉發以及GRE封裝都可以通過DPU硬件實現,大幅提高轉發效率。原來10G的網卡升級到25G后,性能也大大提升。
這樣的改進得到了客戶的認可。“有DPU的解決方案已經在一些大數據、金融、數據庫、容器云等業務中使用,他們的反饋非常好。比如一家做大數據業務的公司,VPC集群砍掉后,進行N對N數據計算,帶寬和性能都有提升,維護成本也降低了。還有一家金融客戶,采用原先的VPC架構,需要為他們部署四臺服務器,這會造成資源浪費,有了DPU,幾張卡就可以替代四臺服務器。”

數據中心的存儲也受益于DPU。過去,UCloud使用本地盤來存儲,缺點是容易出現壞盤或者掉卡,維護非常麻煩,數據丟失想要恢復也非常困難。在新架構里,UCloud采用RSSD云盤作為后端存儲機群,核心是基于DPU的NVMe SNAP功能,實現了計算和存儲的解耦。解耦的優勢包括用戶可以免裝機,實現分鐘級交付,運維也減少了機型,磁盤可以按需使用,能夠快速實現故障遷移,三副本也更加安全可靠。
DPU還讓數據中心的安全性有顯著提升。據介紹,過去數據中心經常使用CPU運行Hyperscan做深度包檢測的政策表達式匹配。“借助BlueField-2,我們測試相比軟件的Hyperscan有3.5倍的加速。”馬彥青同時介紹,“加解密方面,DPU卡也可以對SSL、TLS進行加解密。IPSec的算法也可以實現硬件的卸載,把CPU的算力釋放出來。”

UCloud的最終極的目標,是實現一張卡實現虛擬化和裸金屬架構的統一。他們還在基于InfiniBand網絡的DPU,探索如何加速AI和高性能計算。

DPU在數據中心上位的關鍵
數據中心和云服務提供商實現更多探索,發揮DPU價值的基礎是英偉達DPU硬件的持續提升,以及DOCA軟件棧的不斷完善。根據英偉達的路線圖,下一代DPU BlueField-4預計在2023年發布,將會是業界首個800G的DPU,也會集成GPU。

DOCA是專為DPU開發的軟件包,就像CUDA對英偉達GPU的價值。DOCA通過軟件定義,可以調用DPU里的硬件引擎,實現安全、網絡、存儲等性能的提升。

DOCA的軟件棧一層是Driver和Runtime,主要進行調度硬件加速引擎。一層是DOCA Library,主要是針對業務提供接口。還有DPU管理對接上層,比如做編排(Orchestration)和服務部署(Provisioning)的時候使用DPU管理進行調用。

目前,DOCA 1.0正式版已經發布。
“我認為,云計算市場是DPU很好的突破點,能夠解決合作伙伴遇到的瓶頸問題,讓他們能夠更加高效、安全、低時延的提供服務。” 宋慶春對雷鋒網表示,“云原生超級計算機也應該會很快應用到DPU市場。因為隨著超級計算的發展、算力已經變成了服務,如何提供一種安全的算力服務,DPU在這里面就會扮演非常的角色。最終,DPU也會在基礎設施、數據中心、通信等領域成為一個核心部件。

當然,DPU的出現并非要替代CPU和GPU,而是更好地滿足數據中心市場的需求。“3U(CPU、GPU、DPU)一體的架構將會讓管理程序、調度程序都會變得非常容易。3U一體是要實現從邊緣到核心數據中心,統一架構、統一管理、統一調度。”
想要通過3U一體滿足數據中心等需求的不止英偉達,英特爾本周也發布了與DPU定位類似的IPU(Infrastructure Processing Unit),趨勢已經非常明顯,最終會帶來哪些變革?
注:文中配圖來自英偉達、UCloud 雷鋒網
相關文章:
英偉達DPU計算吞吐量三年將跨越近1000倍!Jetson AI機器人價格低至59美元
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。