0
| 本文作者: 楊依婷 | 2025-12-30 10:04 |
當大模型進入十萬億參數(shù)、長序列、稀疏化和非規(guī)則結(jié)構(gòu)并行發(fā)展的階段,AI算力基礎(chǔ)設施正在發(fā)生一次根本性變化:從傳統(tǒng)服務器集群,演進為以高速互聯(lián)為核心的超節(jié)點架構(gòu)。
2025年12月25日,昇思人工智能框架峰會在杭州召開。大會以“昇思MindSpore為超節(jié)點而生的AI框架”為主題,來自產(chǎn)業(yè)界、學術(shù)界和開源社區(qū)的多位嘉賓,從不同角度給出了一個共同判斷:AI基礎(chǔ)設施已經(jīng)進入超節(jié)點時代,而AI框架正站在范式切換的臨界點上。
超節(jié)點不再只是多臺服務器的簡單堆疊,而是通過高速互聯(lián),在邏輯層面“像一臺機器一樣學習、思考和推理”,具備資源池化、對等架構(gòu)與網(wǎng)絡拓撲分層多樣的特征。
昇思MindSpore開源社區(qū)技術(shù)委員會主席金雪鋒在演講中指出,大模型的演進正在同時帶來三重挑戰(zhàn):
一是模型規(guī)模持續(xù)增長,片上內(nèi)存壓力急劇上升;
二是模型結(jié)構(gòu)從單一語言模型走向全模態(tài),子模型組合更加復雜、不規(guī)則;
三是訓推范式趨于異構(gòu),訓練、推理與Agent運行需要協(xié)同編排。
金雪鋒說,正是這些變化,推動AI基礎(chǔ)設施從“服務器集群時代”邁入“超節(jié)點時代”,AI框架將迎來新的架構(gòu)范式。
昇思MindSpore給出的答案是,把超節(jié)點當作一臺“超級計算機”,在框架層面統(tǒng)一編程和調(diào)度,而不是讓開發(fā)者直接面對復雜的集群拓撲和并行細節(jié)。
這一判斷,也成為昇思MindSpore提出“為超節(jié)點而生”的核心邏輯起點。
“很多人聽過超節(jié)點,但并不真正理解超節(jié)點。”
在峰會之后的媒體溝通會上,現(xiàn)任昇思MindSpore開源社區(qū)理事長王紫東強調(diào)這一點。
在他的解釋中,超節(jié)點并不是簡單地把更多NPU卡堆在一起,而是通過超高帶寬互聯(lián),讓大量計算單元在邏輯層面形成一個高度耦合的整體。卡與卡之間不再是“慢速通信的鄰居”,而是隨時可調(diào)度的數(shù)據(jù)通路。
這一變化,直接服務于一個現(xiàn)實需求:模型太大了,大到必須極致并行。
當模型被切分到數(shù)百、數(shù)千張卡上時,真正的瓶頸已經(jīng)不再是算力本身,而是:
? 數(shù)據(jù)什么時候該在哪一張卡上
? 狀態(tài)何時遷移
? 通信與計算如何重疊
? 并行策略如何隨模型結(jié)構(gòu)變化而調(diào)整
“硬件的性能上限提高了,但如果軟件跟不上,性能是用不出來的。”王紫東直言,超節(jié)點越強,對AI框架的要求反而越高。
昇思MindSpore提出了一個清晰而激進的定位——
把復雜留給自己,把簡單留給開發(fā)者。
在傳統(tǒng)集群時代,開發(fā)者往往需要手動理解并行策略、通信模式和硬件拓撲,而在超節(jié)點時代,這種模式已經(jīng)不可持續(xù)。集群拓撲越來越復雜,節(jié)點規(guī)模越來越大,如果復雜性繼續(xù)外溢到開發(fā)層,開發(fā)效率和穩(wěn)定性將迅速崩塌。
MindSpore的選擇,是讓AI框架本身承擔更多系統(tǒng)級責任,其目標,是讓開發(fā)者在超節(jié)點復雜算力環(huán)境中仍能保持“類單機”的開發(fā)體驗,而HyperParallel架構(gòu)正是實現(xiàn)這一目標的關(guān)鍵。
金雪鋒在峰會上系統(tǒng)拆解了HyperParallel的三項關(guān)鍵能力。
首先是 HyperOffload。
隨著模型規(guī)模持續(xù)擴大,片上內(nèi)存容量成為制約訓練和推理的重要瓶頸。HyperOffload通過實現(xiàn)計算與狀態(tài)分離,利用超節(jié)點的池化存儲能力,將模型狀態(tài)卸載到遠端內(nèi)存中,從而釋放片上資源。在實際應用中,MindSpore給出的數(shù)據(jù)是:訓練性能提升20%以上,推理支持的序列長度提升70%以上,這不是簡單的“搬數(shù)據(jù)”,而是對計算時序的精確調(diào)度。
其次是 HyperMPMD。
SPMD曾經(jīng)是AI并行的黃金標準,但在多模態(tài)、強化學習、Agent 等場景下,它開始顯得僵硬。HyperMPMD推動并行從 “所有節(jié)點做同一件事”,走向 “不同節(jié)點做不同任務”,這種 MPMD 模式,充分利用了超節(jié)點對等互聯(lián)的優(yōu)勢,讓通算并發(fā)成為常態(tài),在相關(guān)場景中,算力利用率可提升 15% 以上。
第三是 HyperShard。
在傳統(tǒng)命令式并行編程中,算法、并行策略與集群架構(gòu)高度耦合,新模型一旦出現(xiàn),往往需要對并行方案進行大規(guī)模重構(gòu)。HyperShard引入聲明式并行編程方式,將算法與并行策略解耦,同時屏蔽底層超節(jié)點網(wǎng)絡拓撲的復雜性。金雪鋒表示,在這一模式下,新算法的并行化改造時間可以壓縮到1天以內(nèi),并行策略調(diào)優(yōu)從“天級”縮短至“小時級”。
從HyperOffload到HyperMPMD,再到HyperShard,昇思MindSpore的目標并非單點性能提升,而是讓超節(jié)點的復雜性由框架消化,而不是由開發(fā)者承擔。
MindSpore為什么“突然變好用了”?
現(xiàn)任昇思MindSpore開源社區(qū)理事長王紫東并沒有從性能參數(shù)或功能列表切入,而是給出了一個并不“市場化”的判斷標準——社區(qū)Issue的自閉環(huán)率。
在他看來,一個健康的AI框架社區(qū),并不是依賴官方不斷“救火”,而是開發(fā)者之間能夠圍繞問題展開討論,自主定位原因、提交修復,并通過PR形成持續(xù)正反饋。“問題能不能在社區(qū)內(nèi)部被解決,往往比解決得有多快更重要。”王紫東說。
也正是在這一意義上,他將MindSpore五年來最重要的成果,歸結(jié)為兩個字:社區(qū)。
華為于2020年3月28日正式開源昇思MindSpore。五年來,這一社區(qū)逐步形成規(guī)模效應:覆蓋全球156個國家和地區(qū),累計下載量超過1300萬次,代碼合入量超過12萬次,核心貢獻開發(fā)者超過5.2萬人,并聯(lián)合2000多家社區(qū)伙伴,孵化出3100多個行業(yè)應用。
這些數(shù)字本身并不新鮮,但它們背后所指向的,是一條已經(jīng)被反復驗證的路徑——自主AI框架并非封閉體系,而可以通過開放協(xié)作,形成持續(xù)演進的技術(shù)能力。
時任昇思MindSpore開源社區(qū)理事長丁誠在峰會上表示,昇思始終堅持開放治理,踐行“共建、共治、共享”的社區(qū)理念。一方面持續(xù)推進框架技術(shù)演進,另一方面也通過課程、競賽和工程實踐,支持AI人才從入門到深度參與開源生態(tài),逐步成長為產(chǎn)業(yè)中的中堅力量。
當這種社區(qū)能力與超節(jié)點架構(gòu)結(jié)合時,其價值開始在真實工程場景中顯現(xiàn)。
中國工程院院士、中國商飛首席科學家吳光輝在演講中介紹,中國商飛上海飛機設計研究院基于昇思MindSpore框架,推出了民機超臨界翼型氣動設計智能體“御風·智翼”,構(gòu)建了基于工程經(jīng)驗的超臨界翼型智能一站式解決方案。
吳光輝指出,大飛機是“工業(yè)皇冠上的明珠”,而飛機氣動設計直接決定民用飛機的關(guān)鍵性能,通過將AI框架與工程經(jīng)驗深度結(jié)合,相關(guān)設計研發(fā)正在向更加智能化、一體化的方向演進。這一實踐,也成為昇思MindSpore在復雜工程領(lǐng)域落地的一個縮影。
從服務器集群到超節(jié)點,從單一模型訓練到多任務并行運行,AI 算力形態(tài)正在發(fā)生根本性變化。在這條變化曲線上,AI框架的角色也隨之轉(zhuǎn)變——它不再只是“讓模型跑起來”的工具,而正在演變?yōu)檫B接算力、模型與應用的組織者。
昇思MindSpore給出的選擇,是將超節(jié)點帶來的復雜性盡可能收斂到框架內(nèi)部,讓開發(fā)者不必直接面對集群拓撲與并行細節(jié),也不必在模型結(jié)構(gòu)變化時反復推倒重來。
這種選擇并不輕松。它意味著更重的系統(tǒng)工程投入、更長周期的技術(shù)積累,也意味著必須依托一個真實活躍的開源社區(qū),在實踐中不斷校正方向。
但在超節(jié)點逐漸成為主流算力形態(tài)、Agent 與多任務運行走向常態(tài)的背景下,AI 框架是否具備“消化復雜性”的能力,正在成為新的分水嶺。
或許正是在這個意義上,昇思 MindSpore 圍繞超節(jié)點與開源展開的探索,并不是一次孤立的技術(shù)發(fā)布,而是一種關(guān)于AI框架如何參與下一輪算力演進的現(xiàn)實回答。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))(雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。