深圳理工大學(xué)唐志敏：異構(gòu)計(jì)算已成必然，軟件決定芯片勝負(fù) ｜GAIR 2025

本文作者：包永剛

2025-12-24 09:35

導(dǎo)語(yǔ)：RISC-V具備一定的包容性，有機(jī)會(huì)融合 CPU、GPU 和 AI 處理器的特性，突破 CUDA 的生態(tài)壁壘。

作者｜包永剛

編輯｜林覺(jué)民

2025年12月12-13日，第八屆GAIR全球人工智能與機(jī)器人大會(huì)在深圳·博林天瑞喜來(lái)登酒店正式啟幕。

作為AI 產(chǎn)學(xué)研投界的標(biāo)桿盛會(huì)，GAIR自2016年創(chuàng)辦以來(lái)，始終堅(jiān)守“傳承+創(chuàng)新”內(nèi)核，始終致力于連接技術(shù)前沿與產(chǎn)業(yè)實(shí)踐。

在人工智能逐步成為國(guó)家競(jìng)爭(zhēng)核心變量的當(dāng)下，算力正以前所未有的速度重塑技術(shù)路徑與產(chǎn)業(yè)結(jié)構(gòu)。13日舉辦的「AI 算力新十年」專場(chǎng)聚焦智能體系的底層核心——算力，從架構(gòu)演進(jìn)、生態(tài)構(gòu)建到產(chǎn)業(yè)化落地展開(kāi)系統(tǒng)討論，試圖為未來(lái)十年的中國(guó)AI產(chǎn)業(yè)，厘清關(guān)鍵變量與發(fā)展方向。

深圳理工大學(xué)算力微電子學(xué)院院長(zhǎng)、龍芯 CPU 與海光 CPU 創(chuàng)始人唐志敏發(fā)表了題為《XPU的未來(lái)——軟件決定成敗》的主題演講。

唐老師指出，算力不僅是硬件性能的體現(xiàn)，更是一種在資源與時(shí)間約束下完成任務(wù)的能力體系。在這一背景下，訓(xùn)力、推力等新型算力能力正在逐步形成，推動(dòng)人工智能從語(yǔ)言理解向多模態(tài)生成發(fā)展。

他強(qiáng)調(diào)，隨著生成式 AI 對(duì)算力需求的快速增長(zhǎng)，單靠 CPU 已無(wú)法滿足現(xiàn)實(shí)需求，異構(gòu)計(jì)算（CPU+XPU）成為必然選擇。但硬件本身并非決定因素，真正影響算力釋放的，是軟件與應(yīng)用生態(tài)。他通過(guò)對(duì)x86、Arm和RISC-V的分析，指出生態(tài)慣性和軟件兼容性在商業(yè)化和技術(shù)落地中起到?jīng)Q定性作用，生態(tài)成熟度往往比硬件性能更能決定芯片成敗。

唐志敏也強(qiáng)調(diào)，軟件定義一切，這不僅意味著應(yīng)用開(kāi)發(fā)與性能優(yōu)化，更決定了算力芯片的長(zhǎng)期競(jìng)爭(zhēng)力和產(chǎn)業(yè)格局。

在算力體系演進(jìn)中，硬件是基礎(chǔ)，但軟件和生態(tài)才是真正的“決定因素”。無(wú)論是 CPU、GPU 還是未來(lái)的 XPU，掌握和構(gòu)建完整的軟件生態(tài)，才能在高速增長(zhǎng)的算力需求與復(fù)雜的技術(shù)挑戰(zhàn)中立于不敗之地。

以下為唐志敏老師的精彩演講內(nèi)容，雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))作了不改變?cè)獾恼砼c編輯：

從“算力”到 Computility：算力正在被重新定義

“算力”其實(shí)是中國(guó)人自己創(chuàng)造出來(lái)的一個(gè)詞。以前在計(jì)算機(jī)領(lǐng)域，更多講的是performance（性能），而不是算力。中國(guó)人什么事情都喜歡講“力”，比如體力、臂力、腦力，現(xiàn)在又有了算力。

既然是我們自己創(chuàng)造的詞，那怎么翻譯成英文？有人翻成Computing Power，但這個(gè)詞我覺(jué)得不太好，聽(tīng)起來(lái)就很費(fèi)電，現(xiàn)在的算力確實(shí)費(fèi)電，但我們并不希望算力特別“更費(fèi)電”。

所以有計(jì)算所的老師創(chuàng)造了一個(gè)新詞，叫 Computility，把Compute（計(jì)算）和Utility（設(shè)置）合在一起，我個(gè)人是比較認(rèn)同這個(gè)說(shuō)法的。我們希望算力像水、電一樣，成為一種基礎(chǔ)設(shè)施。

實(shí)際上算力就是：在可接受的資源、可接受的時(shí)間內(nèi)，完成某種計(jì)算任務(wù)的能力。

在算力這個(gè)概念之上，最近幾年又出現(xiàn)了很多新的“力”。比如現(xiàn)在大家講得比較多的：

訓(xùn)力，就是快速訓(xùn)練出大模型的能力；
推力，就是基于大模型快速推理、生成結(jié)果的能力。

未來(lái)還可能會(huì)有什么力？我自己也做過(guò)一些暢想。現(xiàn)在的大模型已經(jīng)可以理解語(yǔ)言，也可以生成視頻，GPU 可以渲染高度逼真的圖形。如果把這些能力結(jié)合起來(lái)，也許有一天，我們可以把小說(shuō)直接“演”成電視劇。這種能力，本質(zhì)上還是算力體系不斷演進(jìn)的結(jié)果。

CPU 不能滿足需求，異構(gòu)計(jì)算成為必然選擇

各種各樣的計(jì)算芯片，是算力的基礎(chǔ)。我原來(lái)是做高性能計(jì)算機(jī)體系結(jié)構(gòu)，后來(lái)進(jìn)入半導(dǎo)體行業(yè)，會(huì)發(fā)現(xiàn)處理器和其它很多芯片并不一樣。處理器不是一個(gè)單純的硬件，它最復(fù)雜的地方在于，要支撐運(yùn)行非常復(fù)雜、規(guī)模巨大的軟件系統(tǒng)，所以出現(xiàn)了“軟件定義一切”的概念，比如軟件定義存儲(chǔ)，軟件定義網(wǎng)絡(luò)，軟件定義無(wú)線電。

雖然摩爾定律逐漸放緩，但算力需求，尤其是生成式人工智能對(duì)算力的需求，卻在持續(xù)快速增長(zhǎng)，而且增長(zhǎng)速度遠(yuǎn)遠(yuǎn)超過(guò)了制程和工藝所能帶來(lái)的性能提升。

深圳理工大學(xué)唐志敏：異構(gòu)計(jì)算已成必然，軟件決定芯片勝負(fù) ｜GAIR 2025

在這種情況下，只靠CPU肯定不能滿足對(duì)算力的需求。CPU的主頻和整體架構(gòu)，二十多年里并沒(méi)有發(fā)生本質(zhì)變化，所以我們只能通過(guò)CPU + XPU的方式，比如CPU+GPGPU，或者其他的PU，總稱為XPU，和CPU形成異構(gòu)計(jì)算架構(gòu)，在通用性、性能、能耗和成本之間尋找平衡。

XPU 的本質(zhì)：硬件只是資源，性能取決于軟件

但異構(gòu)計(jì)算帶來(lái)了編程、軟件兼容性兩大難題：

編程變得更加困難；
原來(lái)只在CPU上運(yùn)行的程序，如今要分為兩部分，一部分仍在CPU上，另一部分放到XPU上運(yùn)行。

從計(jì)算機(jī)體系結(jié)構(gòu)的角度看，我習(xí)慣把架構(gòu)分成三類。

第一類是比較激進(jìn)的結(jié)構(gòu)，主要靠硬件做動(dòng)態(tài)優(yōu)化。為了運(yùn)行復(fù)雜應(yīng)用，硬件要分析指令之間的并行性，典型代表就是傳統(tǒng) CPU。

第二類是比較保守的結(jié)構(gòu)，硬件并不去做復(fù)雜分析，而是提供大量運(yùn)算部件和存儲(chǔ)資源，至于這些資源怎么用，主要依賴軟件，比如GPU和各種XPU。

第三類是動(dòng)靜態(tài)優(yōu)化相結(jié)合的結(jié)構(gòu)。

XPU本質(zhì)上屬于保守型結(jié)構(gòu)。硬件只負(fù)責(zé)把計(jì)算資源提供出來(lái)，并不保證性能一定能發(fā)揮出來(lái)。性能能不能出來(lái)，更多取決于軟件、編譯器和程序員。

自動(dòng)并行化這個(gè)方向，學(xué)術(shù)界和工業(yè)界研究了幾十年，效果始終有限。現(xiàn)實(shí)中，真正能把性能跑出來(lái)的，還是依賴經(jīng)驗(yàn)豐富的程序員和成熟的軟件體系。

也正因?yàn)檫@樣，我一直強(qiáng)調(diào)，算力芯片真正面臨的核心問(wèn)題，不是硬件架構(gòu)，而是應(yīng)用生態(tài)。

深圳理工大學(xué)唐志敏：異構(gòu)計(jì)算已成必然，軟件決定芯片勝負(fù) ｜GAIR 2025

所謂生態(tài)，就是能在處理器上運(yùn)行的所有軟件的總和，包括應(yīng)用軟件、操作系統(tǒng)、編譯器、中間件、函數(shù)庫(kù)和開(kāi)發(fā)工具。最終真正產(chǎn)生生產(chǎn)力的，是應(yīng)用軟件，而不是芯片本身。

生態(tài)慣性：x86、Arm與RISC-V的現(xiàn)實(shí)邊界

在CPU領(lǐng)域，x86生態(tài)經(jīng)過(guò)四五十年的發(fā)展，已經(jīng)有非常高的市場(chǎng)占有率和生態(tài)慣性。哪怕是英特爾自己，也很難去推動(dòng)一個(gè)不兼容x86的體系。

根據(jù)Gartner給出的全球企業(yè)軟件的情況，經(jīng)過(guò)多年發(fā)展，x86軟件市場(chǎng)越來(lái)越大，基于x86軟件的銷售收入是3000多億美元。為x86開(kāi)發(fā)軟件的費(fèi)用，每年大概是600億美元。而全球服務(wù)器市場(chǎng)總的收入，大概是800億美元。也就是說(shuō)，一年賣出800億美元的服務(wù)器，為了開(kāi)發(fā)x86軟件，每年要新增600億美元。可見(jiàn)軟件開(kāi)發(fā)需要耗費(fèi)大量精力。

深圳理工大學(xué)唐志敏：異構(gòu)計(jì)算已成必然，軟件決定芯片勝負(fù) ｜GAIR 2025

在手機(jī)領(lǐng)域很成功的Arm也想要進(jìn)入服務(wù)器領(lǐng)域，可以看到一個(gè)又一個(gè)Arm架構(gòu)服務(wù)器公司屢戰(zhàn)屢敗。他們的失敗有各種各樣的原因，我認(rèn)為Arm架構(gòu)在服務(wù)器領(lǐng)域要成功需要有兩個(gè)原因：一個(gè)原因是掌握全棧技術(shù)的大公司不再使用x86，這是Arm的機(jī)會(huì)，典型的比如蘋(píng)果不用x86，自己掌握軟件棧可以切換。另一個(gè)原因是端云融合，手機(jī)上和云端都用Arm架構(gòu)，這樣手機(jī)上的應(yīng)用比較容易遷移到云端，包括云游戲等，這樣Arm在服務(wù)器市場(chǎng)才更容易成功。

除了Arm，RISC-V也是一個(gè)大家都在關(guān)注的方向，但RISC-V到底靈不靈？它的開(kāi)放性確實(shí)帶來(lái)了新的可能性，但開(kāi)放和開(kāi)源本身，并不自動(dòng)等于成功，開(kāi)放的CPU有很多，比如OpenRISC、OpenSPARC、OpenPower現(xiàn)在也開(kāi)放了。

也有人說(shuō)Arm太貴，用RISC-V可以省錢。但我之前做芯片公司的時(shí)候，一直買Arm的IP授權(quán)，也沒(méi)覺(jué)得有多貴。若干年前，Arm一年的收入十幾億美元，如今Arm每年收入三四十億美元，Arm收入的增加是在很多公司使用RISC-V的背景下，這從某個(gè)角度說(shuō)明了做RISC-V的公司需要反思。

還有人說(shuō)RISC-V更適合做研究，因?yàn)榭梢噪S便修改。但我認(rèn)為做研究用什么架構(gòu)都可以，不一定要用RISC-V，用x86、Arm照樣可以做研究，這不是理由。

RISC-V開(kāi)放，很多人希望用開(kāi)源硬件去走一條類似開(kāi)源軟件的發(fā)展路徑，但我一直覺(jué)得，這條路并沒(méi)有那么容易。和開(kāi)源軟件相比，開(kāi)源硬件的難度要大得多。

從現(xiàn)實(shí)情況看，現(xiàn)在全球的 RISC-V 都面臨著商業(yè)化的困難。我看到一條新聞，Jim Keller——這個(gè)行業(yè)里做CPU架構(gòu)的頂級(jí)人物——?jiǎng)?chuàng)辦了一家做RISC-V的公司Tenstorrent，最近開(kāi)始裁員了。包括Tenstorrent在內(nèi)美國(guó)好幾家公司做出了RISC-V芯片，但問(wèn)題是不知道賣給誰(shuí)。

目前相對(duì)做得好一些的，反而是一些軟件相對(duì)簡(jiǎn)單的嵌入式場(chǎng)景，比如做存儲(chǔ)的企業(yè)，把 RISC-V 用來(lái)做存儲(chǔ)控制器。這類場(chǎng)景軟件非常簡(jiǎn)單，確實(shí)能用，也用得不錯(cuò)。但一旦進(jìn)入計(jì)算領(lǐng)域RISC-V面臨的問(wèn)題就多了很多。

這背后反映的，不只是軟件生態(tài)的問(wèn)題，硬件生態(tài)本身也還不成熟。只要是 CPU，就一定會(huì)走向多核，多核就涉及片上互聯(lián)網(wǎng)絡(luò)，Arm在片上互聯(lián)這件事上，已經(jīng)有比較成熟的解決方案，但RISC-V還沒(méi)有。

于是就出現(xiàn)一種很現(xiàn)實(shí)的困境：想做RISC-V CPU，但片上互聯(lián)又要去找Arm買。Arm愿意把互聯(lián)網(wǎng)絡(luò)賣給你，也想順便把CPU核一起賣給你。這就是RISC-V目前在工程層面面臨的實(shí)際困難，也說(shuō)明還有很長(zhǎng)的路要走。

為什么兼容 CUDA 容易，復(fù)制 CUDA 生態(tài)極難？

也有人認(rèn)為，將來(lái)指令系統(tǒng)可能沒(méi)那么重要，因?yàn)楝F(xiàn)在是“軟件定義一切”，上層可以用 Python、Java 這些平臺(tái)無(wú)關(guān)的高級(jí)語(yǔ)言。但從實(shí)際發(fā)展來(lái)看，情況并不是這樣。以Intel為例，無(wú)論是過(guò)去的AVX-512、SGX，還是現(xiàn)在圍繞人工智能不斷加入的新指令，都說(shuō)明：硬件指令的直接支持，對(duì)性能和能效始終是有價(jià)值的。

在XPU領(lǐng)域也是類似的情況。現(xiàn)在大家都在講兼容 CUDA，因?yàn)?CUDA 的生態(tài)確實(shí)做得好。很多做其他XPU、AI加速器的廠商，第一件事就是要兼容CUDA。

但 CUDA本質(zhì)上是什么？它其實(shí)就是一個(gè)高級(jí)語(yǔ)言接口，是英偉達(dá)的一套API。從技術(shù)角度看，兼容一個(gè)API并不難，有一個(gè)編譯器，就可以兼容CUDA的接口。但真正難的，是兼容 CUDA 背后的軟件生態(tài)。

生態(tài)從來(lái)不只是一個(gè) API，它包含了大量算力庫(kù)、函數(shù)庫(kù)、開(kāi)發(fā)工具和工程實(shí)踐，這是一套非常復(fù)雜、長(zhǎng)期演進(jìn)的體系，工作量極其龐大。

也正因?yàn)槿绱耍F(xiàn)在國(guó)家層面也意識(shí)到這個(gè)問(wèn)題的重要性，正在推動(dòng)大家一起做生態(tài)建設(shè)。從這個(gè)角度看，打造我們自己的算力生態(tài)是非常有必要的。除了CUDA，英特爾、AMD 也都在做各自的生態(tài)，我們?nèi)绻蛔觯陀肋h(yuǎn)受制于人。

誰(shuí)能把芯片做成？軟件生態(tài)決定成敗

從整體來(lái)看，我們現(xiàn)在的算力體系仍然存在不小的缺口和瓶頸。中國(guó)乃至全球范圍內(nèi)，半導(dǎo)體的發(fā)展速度都在放慢，但算力需求卻在持續(xù)增加。中國(guó)還面臨制程方面的限制，這就決定了我們必須通過(guò)跨學(xué)科交叉，在系統(tǒng)、軟件和算法層面，去尋找實(shí)際性能的突破。

深圳理工大學(xué)唐志敏：異構(gòu)計(jì)算已成必然，軟件決定芯片勝負(fù) ｜GAIR 2025

算力的發(fā)揮，靠的不只是硬件。硬件當(dāng)然是基礎(chǔ)，但硬件的峰值性能，本質(zhì)上只是一個(gè)指標(biāo)。真正的性能提升，很大一部分來(lái)自軟件優(yōu)化。

做高性能計(jì)算的人都知道，LINPACK可以把整機(jī)效率跑到60%～70%，但LINPACK只是測(cè)試程序，不是真實(shí)應(yīng)用。真正的應(yīng)用軟件，能跑到整機(jī)20%～30%的效率已經(jīng)非常不容易。這里面還有很大的優(yōu)化空間。

深圳理工大學(xué)唐志敏：異構(gòu)計(jì)算已成必然，軟件決定芯片勝負(fù) ｜GAIR 2025

我們的芯片峰值性能可能很難做到最高，但如果能打破硬件和軟件之間的隔閡，在軟件、編譯、系統(tǒng)層面多做一些優(yōu)化，即便在峰值性能相對(duì)低一些的芯片上，也完全有可能獲得不錯(cuò)的應(yīng)用效果。這是未來(lái)非常重要的一項(xiàng)工作。

另外，現(xiàn)在大家都在做 GPGPU，但GPU最基本的能力同樣重要，比如紋理生成、圖案著色、光照和陰影處理等。現(xiàn)在有些GPGPU已經(jīng)發(fā)生了“異化”，只能計(jì)算，不能渲染。但如果我們真的要實(shí)現(xiàn)從小說(shuō)生成電視劇，不僅需要 GPGPU 的計(jì)算能力，也同樣需要GPU的圖形渲染能力。AIGC不只是生成文章，還應(yīng)該能生成影視內(nèi)容。

計(jì)算芯片產(chǎn)業(yè)的發(fā)展，本身是一個(gè)螺旋式上升的過(guò)程。早期系統(tǒng)廠商都會(huì)自己做CPU，因?yàn)?CPU是計(jì)算機(jī)系統(tǒng)的核心；后來(lái)由于量產(chǎn)和成本壓力，x86快速發(fā)展，系統(tǒng)廠商逐步退出；而現(xiàn)在，系統(tǒng)廠商和平臺(tái)廠商又重新開(kāi)始自研芯片。

美國(guó)的互聯(lián)網(wǎng)巨頭如此，中國(guó)的互聯(lián)網(wǎng)廠商、系統(tǒng)廠商也都在自研CPU。自研自用這條路能不能走通，關(guān)鍵并不在于“能不能做芯片”，而在于：能否為產(chǎn)品和服務(wù)提供足夠大的增值，能否掌控全棧軟件體系。

蘋(píng)果是一個(gè)非常典型的成功案例。從跟摩托羅拉和IBM聯(lián)合開(kāi)發(fā)PowerPC CPU，到轉(zhuǎn)向采用Intel CPU，再到基于Arm架構(gòu)自研CPU，它之所以能成功，原因其實(shí)非常簡(jiǎn)單：通過(guò)自研高性能芯片，配合自有的軟件體系，形成非常領(lǐng)先的用戶體驗(yàn)，在此基礎(chǔ)上把產(chǎn)品賣得很貴。手機(jī)賣得貴，筆記本也賣得貴。其它廠商如果做不到這一點(diǎn)，僅僅自研芯片，最終大概率都會(huì)失敗。只有軟硬件通吃，才能真正賣得貴。

我們要不要再搞新的指令系統(tǒng)？我個(gè)人的看法是：架構(gòu)創(chuàng)新不需要依賴新的指令系統(tǒng)。指令系統(tǒng)只是硬件和軟件之間交流的語(yǔ)言，我們沒(méi)必要不斷增加新的語(yǔ)言。如果要做創(chuàng)新，在現(xiàn)有指令體系下完全可以做，RISC-V 已經(jīng)足夠了。

歸根結(jié)底，誰(shuí)能把芯片做成功？不管是CPU還是GPU，只有真正重視軟件和應(yīng)用生態(tài)，才有成功的可能。“軟件定義一切”，這個(gè)“一切”，同樣包括成功和失敗。

對(duì)于平臺(tái)廠商和系統(tǒng)廠商來(lái)說(shuō)，如果要自研芯片，一定要有清晰的差異化，并且這個(gè)差異化必須能為系統(tǒng)或服務(wù)帶來(lái)顯著增值，否則使用成熟的商用芯片，反而是更理性的選擇。

最后我還是希望，大家能把RISC-V作為一個(gè)統(tǒng)一的指令系統(tǒng)方向。無(wú)論是CPU、GPU還是其他處理器，都盡量統(tǒng)一到同一架構(gòu)平臺(tái)上，減少重復(fù)投入。

深圳理工大學(xué)唐志敏：異構(gòu)計(jì)算已成必然，軟件決定芯片勝負(fù) ｜GAIR 2025

我們常說(shuō)“三國(guó)定律”，合久必分，分久必合。過(guò)去是CPU為中心，現(xiàn)在是CPU + XPU的異構(gòu)體系，未來(lái)也許會(huì)回到以CPU為中心的新一體化架構(gòu)。RISC-V具備一定的包容性，有機(jī)會(huì)融合 CPU、GPU 和 AI 處理器的特性，吸收開(kāi)源體系的力量，逐步突破 CUDA 的生態(tài)壁壘。

以上就是我全部的分享，謝謝大家。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

包永剛

編輯

發(fā)私信

當(dāng)月熱門文章