0
所有人的目光聚焦在生成式AI時,Arm同樣如此,還提出了非常具體的目標。
一年一度的 Arm Tech Symposia 年度技術大會深圳站,Arm 終端事業部產品管理副總裁 James McNiven表示,“預計到2025年底,全球將有超過1000億臺Arm設備具備 AI 能力。”

對于Arm架構芯片出貨量已經超過3000億顆的Arm來說,這是一個可以輕松達成的目標嗎?
“我不會說這是一個非常輕松就能達成的目標。”James McNiven對雷峰網(公眾號:雷峰網)表示,“我們與生態合作伙伴一起能夠達成這個目標。”
為了達成這個目標,Arm有一些列動作,包括為生成式AI計算進行的持續的架構演進,提供易于使用的軟件工具,以及特定面向行業的整體解決方案,還有更廣泛的合作。
為生成式AI演進的架構
Arm一直在根據市場需求持續演進其架構保持其領導地位。

比如2011年Armv7-A中引入了Neon,Neon是高級單指令多數據(SIMD)指令的一種實現方案。
2016年Armv8-A 中引入了 SVE,2021 年 Armv9-A 中引入了 SVE2,它們提供可變長度寄存器。
2021年Armv9-A中引入了SME和SME2。SME引入了兩個關鍵的新架構特性:Streaming SVE模式和ZA存儲,新特性使SME 和 SME2 能夠高效地處理矩陣和基于向量的工作負載。

SVE2和SEM的架構擴展也是Arm未來十年架構演進的重要方向。
Armv9 CPU中的SVE2對于加速視頻解碼和圖像處理有顯著作用。
聯發科最新的旗艦芯片天璣9400,就是借助SVE2讓聯發科的芯片協助開發者和終端提升視頻和圖像處理,提供更好的照片質量,并為用戶在觀看流媒體視頻和瀏覽社交媒體應用程序時提供了更好的續航能力。
SME建立在SVE2的基礎之上,新增了高效處理矩陣的能力,是一個增強矩陣操作的架構擴展。
Arm SME能夠顯著提升Arm CPU上處理現有AI和ML應用的能力,加速很多利用矩陣運算的應用,例如 AR、VR 和圖像處理。

這也意味著,從2015年使用Armv8(NEON)架構的Cortex-A73 CPU開始,Arm在AI領域的投入就已經轉化為產品。Arm將實現的1000億臺設備具備AI能力的目標,也覆蓋從Armv8(NEON)到Armv9(SVE2/SME)的所有產品。
可擴展的計算平臺只是Arm滿足生成式AI時代需求的技術底層。對于芯片設計公司來說,關注可擴展能力的同時,也關注性能和產品上市時間。
面向不同行業推出計算子系統,加速產品上市
芯片行業不變的追求就是以更小芯片面積和更低功耗實現更高性能,性能總是會成為首先被關注的焦點。
基于Armv9.2架構的Arm Cortex-X925在Geekbench 6.2基準測試中創下新高,實現了15% 的每時鐘周期指令數 (IPC) 提升。
Arm Cortex-X925顯著的性能提升得益于L2緩存從2MB增加到3MB,增強了整體性能和能效。再結合Cortex-X925 在更快速、更高效預取數據和復雜指令的能力后,效果更佳明顯。
除此之外,Cortex-X925也充分利用3納米工藝的優勢,在需要時以更高的頻率運行 CPU,從而提高響應速度、應用啟動速度和瀏覽器性能并且保持能效優勢。
Cortex-X925中矢量管線50%的Integer8 TOPS 提升,可加快智能手機上的AI應用響應速度。
即便Arm的設計足夠優秀,想要加速產品上市進程,還需要整體解決方案。為此,Arm推出了Arm 終端計算子系統 (CSS),CSS具備最新的 Armv9 CPU、Arm Immortalis GPU、基于3納米工藝生產就緒的CPU和GPU物理實現,以及最新的 CoreLink系統互連和系統內存管理單元 (SMMU)。
Arm終端CSS提升了30% 以上的計算和圖形性能,AI推理速度也提高了59%,以應對各種嚴苛的工作負載,適用于廣泛的AI應用。
“Arm終端CSS的關鍵在于Arm目前性能最強、效率最高、功能最廣泛的CPU集群,帶來最佳的性能和能效。”James表示。
不止是CSS,面向更高性能的云端Neoverse CPU,Arm也已經推出了Arm Neoverse CSS。雷峰網了解到,Arm接下來還將推出面向汽車市場的Arm CSS for Auto。

加速實現AI目標,Arm Kleidi 軟件庫是關鍵
Arm的計算子系統性能要被充分發揮,軟件非常關鍵。
“開發者需要統一的開發平臺,換言之,我們要讓開發者不需要關心底層硬件,讓他們完成一次代碼編寫后就可以部署到不同的解決方案中。”James 同時表示,“基于Arm平臺超過2000萬的開發者對于軟件平臺也有易于使用的要求。”

面向生成式AI的時代,Arm推出面向熱門AI框架的Arm Kleidi軟件庫。
KleidiAI的命名來自于希臘語“kleidi”,意為“鑰匙”,象征其在提升Arm CPU上AI性能方面發揮著關鍵作用。
Kleidi 軟件庫包含面向AI工作負載的KleidiAI,和面向計算機視覺工作負載的 KleidiCV。
KleidiAI的明顯優勢在于,Arm直接與領先的AI框架合作,Kleidi軟件庫直接嵌入在包括 MediaPipe、LLAMA.cpp、PyTorch和 TensorFlow Lite的 AI 框架中,開發者無需進行任何操作,不會增加額外工作量。
Arm近日也宣布成功將Arm KleidiAI軟件庫集成到騰訊混元自研的Angel機器學習框架,能夠持續為跨操作系統的不同基于 Arm 的設備帶來顯著的性能提升。
與不包含優化的實現方案相比,在Arm Cortex-X925 CPU 上,使用集成了KleidiAI的llama.cpp的Meta Llama 3和微軟 Phi-3 大語言模型 (LLM) 的詞元 (Token) 首次響應時間加快了190%。

Arm的工程團隊只用不到24小時就測出了Llama 3的優化性能,充分體現了KleidiAI易于集成的特性。
軟件庫中的KleidiCV,能夠加速許多攝像頭用例中的計算機視覺管線。基于KleidiCV集成,全球最的的計算機視覺庫OpenCV發現各種圖像處理任務的典型性能提升高達75%。
值得注意的是,Arm Kleidi 軟件庫適用于從終端到云端的各種應用場景。
更廣泛的生態合作
“AI比歷史上其他計算技術都更耗電和內存。”James表示,“先進封裝作為解決AI計算挑戰的新方法,我們要驅動基于Arm的小芯片生態的繁榮。”
這就離不開Arm全面設計 (Arm Total Design)生態的壯大,這個生態中除了Arm的軟件和固件,還有先進的代工廠、芯片設計公司、EDA、內存、第三方IP等公司。

對于Arm,只有不斷拓展自己的邊界,成為平臺公司,更有利于加速實現明年底1000億臺Arm設備具備運行AI能力目標的實現,這也將幫助Arm在生成式AI時代保持領先優勢。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。