昇思MindSpore實現(xiàn)超節(jié)點的「類單機開發(fā)體驗」的三項關(guān)鍵能力

本文作者：楊依婷

2025-12-30 10:04

導語：“把超節(jié)點當作一臺超級計算機來編程和調(diào)度。”

當大模型進入十萬億參數(shù)、長序列、稀疏化和非規(guī)則結(jié)構(gòu)并行發(fā)展的階段，AI算力基礎(chǔ)設施正在發(fā)生一次根本性變化：從傳統(tǒng)服務器集群，演進為以高速互聯(lián)為核心的超節(jié)點架構(gòu)。

2025年12月25日，昇思人工智能框架峰會在杭州召開。大會以“昇思MindSpore為超節(jié)點而生的AI框架”為主題，來自產(chǎn)業(yè)界、學術(shù)界和開源社區(qū)的多位嘉賓，從不同角度給出了一個共同判斷：AI基礎(chǔ)設施已經(jīng)進入超節(jié)點時代，而AI框架正站在范式切換的臨界點上。

超節(jié)點不再只是多臺服務器的簡單堆疊，而是通過高速互聯(lián)，在邏輯層面“像一臺機器一樣學習、思考和推理”，具備資源池化、對等架構(gòu)與網(wǎng)絡拓撲分層多樣的特征。

昇思MindSpore開源社區(qū)技術(shù)委員會主席金雪鋒在演講中指出，大模型的演進正在同時帶來三重挑戰(zhàn)：

一是模型規(guī)模持續(xù)增長，片上內(nèi)存壓力急劇上升；
二是模型結(jié)構(gòu)從單一語言模型走向全模態(tài)，子模型組合更加復雜、不規(guī)則；
三是訓推范式趨于異構(gòu)，訓練、推理與Agent運行需要協(xié)同編排。

金雪鋒說，正是這些變化，推動AI基礎(chǔ)設施從“服務器集群時代”邁入“超節(jié)點時代”，AI框架將迎來新的架構(gòu)范式。

昇思MindSpore給出的答案是，把超節(jié)點當作一臺“超級計算機”，在框架層面統(tǒng)一編程和調(diào)度，而不是讓開發(fā)者直接面對復雜的集群拓撲和并行細節(jié)。

這一判斷，也成為昇思MindSpore提出“為超節(jié)點而生”的核心邏輯起點。

HyperParallel架構(gòu)：把復雜并行留給框架

“很多人聽過超節(jié)點，但并不真正理解超節(jié)點。”

在峰會之后的媒體溝通會上，現(xiàn)任昇思MindSpore開源社區(qū)理事長王紫東強調(diào)這一點。

在他的解釋中，超節(jié)點并不是簡單地把更多NPU卡堆在一起，而是通過超高帶寬互聯(lián)，讓大量計算單元在邏輯層面形成一個高度耦合的整體。卡與卡之間不再是“慢速通信的鄰居”，而是隨時可調(diào)度的數(shù)據(jù)通路。

這一變化，直接服務于一個現(xiàn)實需求：模型太大了，大到必須極致并行。

當模型被切分到數(shù)百、數(shù)千張卡上時，真正的瓶頸已經(jīng)不再是算力本身，而是：

? 數(shù)據(jù)什么時候該在哪一張卡上

? 狀態(tài)何時遷移

? 通信與計算如何重疊

? 并行策略如何隨模型結(jié)構(gòu)變化而調(diào)整

“硬件的性能上限提高了，但如果軟件跟不上，性能是用不出來的。”王紫東直言，超節(jié)點越強，對AI框架的要求反而越高。

昇思MindSpore提出了一個清晰而激進的定位——
把復雜留給自己，把簡單留給開發(fā)者。

在傳統(tǒng)集群時代，開發(fā)者往往需要手動理解并行策略、通信模式和硬件拓撲，而在超節(jié)點時代，這種模式已經(jīng)不可持續(xù)。集群拓撲越來越復雜，節(jié)點規(guī)模越來越大，如果復雜性繼續(xù)外溢到開發(fā)層，開發(fā)效率和穩(wěn)定性將迅速崩塌。

MindSpore的選擇，是讓AI框架本身承擔更多系統(tǒng)級責任，其目標，是讓開發(fā)者在超節(jié)點復雜算力環(huán)境中仍能保持“類單機”的開發(fā)體驗，而HyperParallel架構(gòu)正是實現(xiàn)這一目標的關(guān)鍵。

金雪鋒在峰會上系統(tǒng)拆解了HyperParallel的三項關(guān)鍵能力。

首先是 HyperOffload。

隨著模型規(guī)模持續(xù)擴大，片上內(nèi)存容量成為制約訓練和推理的重要瓶頸。HyperOffload通過實現(xiàn)計算與狀態(tài)分離，利用超節(jié)點的池化存儲能力，將模型狀態(tài)卸載到遠端內(nèi)存中，從而釋放片上資源。在實際應用中，MindSpore給出的數(shù)據(jù)是：訓練性能提升20%以上，推理支持的序列長度提升70%以上，這不是簡單的“搬數(shù)據(jù)”，而是對計算時序的精確調(diào)度。

其次是 HyperMPMD。

SPMD曾經(jīng)是AI并行的黃金標準，但在多模態(tài)、強化學習、Agent 等場景下，它開始顯得僵硬。HyperMPMD推動并行從 “所有節(jié)點做同一件事”，走向 “不同節(jié)點做不同任務”，這種 MPMD 模式，充分利用了超節(jié)點對等互聯(lián)的優(yōu)勢，讓通算并發(fā)成為常態(tài)，在相關(guān)場景中，算力利用率可提升 15% 以上。

第三是 HyperShard。

在傳統(tǒng)命令式并行編程中，算法、并行策略與集群架構(gòu)高度耦合，新模型一旦出現(xiàn)，往往需要對并行方案進行大規(guī)模重構(gòu)。HyperShard引入聲明式并行編程方式，將算法與并行策略解耦，同時屏蔽底層超節(jié)點網(wǎng)絡拓撲的復雜性。金雪鋒表示，在這一模式下，新算法的并行化改造時間可以壓縮到1天以內(nèi)，并行策略調(diào)優(yōu)從“天級”縮短至“小時級”。

從HyperOffload到HyperMPMD，再到HyperShard，昇思MindSpore的目標并非單點性能提升，而是讓超節(jié)點的復雜性由框架消化，而不是由開發(fā)者承擔。

五年開源積累：超節(jié)點能力為何離不開社區(qū)

MindSpore為什么“突然變好用了”？

現(xiàn)任昇思MindSpore開源社區(qū)理事長王紫東并沒有從性能參數(shù)或功能列表切入，而是給出了一個并不“市場化”的判斷標準——社區(qū)Issue的自閉環(huán)率。

在他看來，一個健康的AI框架社區(qū)，并不是依賴官方不斷“救火”，而是開發(fā)者之間能夠圍繞問題展開討論，自主定位原因、提交修復，并通過PR形成持續(xù)正反饋。“問題能不能在社區(qū)內(nèi)部被解決，往往比解決得有多快更重要。”王紫東說。

也正是在這一意義上，他將MindSpore五年來最重要的成果，歸結(jié)為兩個字：社區(qū)。

華為于2020年3月28日正式開源昇思MindSpore。五年來，這一社區(qū)逐步形成規(guī)模效應：覆蓋全球156個國家和地區(qū)，累計下載量超過1300萬次，代碼合入量超過12萬次，核心貢獻開發(fā)者超過5.2萬人，并聯(lián)合2000多家社區(qū)伙伴，孵化出3100多個行業(yè)應用。

這些數(shù)字本身并不新鮮，但它們背后所指向的，是一條已經(jīng)被反復驗證的路徑——自主AI框架并非封閉體系，而可以通過開放協(xié)作，形成持續(xù)演進的技術(shù)能力。

時任昇思MindSpore開源社區(qū)理事長丁誠在峰會上表示，昇思始終堅持開放治理，踐行“共建、共治、共享”的社區(qū)理念。一方面持續(xù)推進框架技術(shù)演進，另一方面也通過課程、競賽和工程實踐，支持AI人才從入門到深度參與開源生態(tài)，逐步成長為產(chǎn)業(yè)中的中堅力量。

當這種社區(qū)能力與超節(jié)點架構(gòu)結(jié)合時，其價值開始在真實工程場景中顯現(xiàn)。

中國工程院院士、中國商飛首席科學家吳光輝在演講中介紹，中國商飛上海飛機設計研究院基于昇思MindSpore框架，推出了民機超臨界翼型氣動設計智能體“御風·智翼”，構(gòu)建了基于工程經(jīng)驗的超臨界翼型智能一站式解決方案。

吳光輝指出，大飛機是“工業(yè)皇冠上的明珠”，而飛機氣動設計直接決定民用飛機的關(guān)鍵性能，通過將AI框架與工程經(jīng)驗深度結(jié)合，相關(guān)設計研發(fā)正在向更加智能化、一體化的方向演進。這一實踐，也成為昇思MindSpore在復雜工程領(lǐng)域落地的一個縮影。

從服務器集群到超節(jié)點，從單一模型訓練到多任務并行運行，AI 算力形態(tài)正在發(fā)生根本性變化。在這條變化曲線上，AI框架的角色也隨之轉(zhuǎn)變——它不再只是“讓模型跑起來”的工具，而正在演變?yōu)檫B接算力、模型與應用的組織者。

昇思MindSpore給出的選擇，是將超節(jié)點帶來的復雜性盡可能收斂到框架內(nèi)部，讓開發(fā)者不必直接面對集群拓撲與并行細節(jié)，也不必在模型結(jié)構(gòu)變化時反復推倒重來。

這種選擇并不輕松。它意味著更重的系統(tǒng)工程投入、更長周期的技術(shù)積累，也意味著必須依托一個真實活躍的開源社區(qū)，在實踐中不斷校正方向。

但在超節(jié)點逐漸成為主流算力形態(tài)、Agent 與多任務運行走向常態(tài)的背景下，AI 框架是否具備“消化復雜性”的能力，正在成為新的分水嶺。

或許正是在這個意義上，昇思 MindSpore 圍繞超節(jié)點與開源展開的探索，并不是一次孤立的技術(shù)發(fā)布，而是一種關(guān)于AI框架如何參與下一輪算力演進的現(xiàn)實回答。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))（雷峰網(wǎng)）

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

楊依婷

編輯

歡迎添加作者微信EATINGNTAE進行交流~

發(fā)私信

當月熱門文章