0
OpenAI的單點集群大概5萬張卡,谷歌2.6萬張卡,Meta2.45萬張卡。

頂級的AI公司已經為這場“暴力美學”的競賽,設定了單點集群萬卡的門檻。
華為昇騰AI集群規模在去年7月已經擴展至16000卡。去年10月科大訊飛啟動萬卡集群算力平臺“飛星一號”。
今年3月,天翼云上海臨港國產萬卡算力池啟用。4月,中國移動宣布今年將商用3個自主可控萬卡集群。
摩爾線程創始人兼CEO張建中在2024世界人工智能大會(WAIC)前夕的摩爾線程AI DAY 暨萬卡智算集群解決方案發布會上表示,“AI主戰場,萬卡是最低標配。”
可實現萬卡集群至少面臨6個層面的挑戰,國內公司如何實現國產算力的萬卡智算集群?
AI主戰場,萬卡是標配
最近兩年火爆的生成式AI,被許多人稱為“暴力美學”。
也就是在數據量足夠大、模型參數數量大到一定程度,模型的精度、準確度會出現智能涌現會,突破傳統大模型的準確度。
比如,在自然語言理解場景,當算力參數量和數據量綜合算力達到10的23次方時,準確度有極大的飛躍。

這個規律被稱作Scaling Law。與Scaling Law相伴的是對算力的指數級增長。
比如訓練GPT4,大概需要1千張H100的算力,而如果使用A100則需要3萬張。
“GPT5需要的算力是10萬卡。”張建中認為。
這是基于假設Scaling Law按照線性比例成長,估算參數、數據量和算力之間的關系。
從GTP3到GPT4,模型的參數從百億到萬億,100倍的參數增長,數據量也從幾TB到幾十TB,是10倍的提升,兩者一乘,整個算力的需求就是1000倍的提升。
滿足Scaling Law的唯一辦法就是建立一個單點超大規模算力集群。
“只有這樣,才可以把這個大模型在一個地方,一個網絡,單節點之內把它訓練完成。”張建中指出。
假設訓練一個5000億參數的模型,15TB的數據,如果使用1000P的集群,三年都訓練不完。如果要在一個月內,甚至1-2周內訓練完5000億參數的模型,至少要1萬P的算力集群。

“從今年開始,所有智算中心萬卡是最低標配,萬卡以上的智算中心才有價值。”張建中認為。
Scaling Law持續奏效的同時,還不能忽視算法和架構的演進。
目前,Transformer架構雖然是主流,但新興架構如Mamba、RWKV和RetNet等不斷刷新計算效率,加快創新速度。
“有公司專門為Transformer架構做加速計算,這個創意很好,但如果很容易實現一定會被融合到GPU當中,成為GPU當中的Transformer引擎。我們相信未來還會出現各種架構的變種,要支持不停出現的新框架,只有一個辦法,就是通用且能持續發展的計算平臺。”張建中表示。
那就應該建設一個萬卡規模加上通用可擴展的智算中心,這面臨眾多挑戰。
萬卡智算中心的6大難題
有統計數據,2024年國內有上百個在建的智算中心。這是一項超高額的投入,建設幾萬P的智算中心成本高達幾十億,更大算力規模則需投資上百億。
“連市場客戶都沒有就盲目建設智算中心肯定不對,不是所有人都應該去建算力中心,應該由專業的人干專業的事。”張建中進一步表示,“智算中心是否好用,能否通用,能不能穩定運行,有沒有能力運營都是建設智算中心需要考慮的事情。”
很多客戶喜歡喜歡DIY,但張建中建議不要太多DIY,而是采用整體解決方案,這樣集群買回去之后馬上就可以用起來,能夠避免風險。
特別是從千卡到萬卡集群,不是簡單的堆疊,復雜度指數級增加,國產千卡/萬卡超級系統工程面臨著6大難題:包括超大規模組網互聯、集群有效計算效率、訓練高穩定性與可用性、故障快速定位與可診斷工具、生態Day0級快速遷移、未來場景通用計算。

“可以把萬卡想象成一個萬人團隊,需要有非常強的溝通機制,才能協同的把一件事情完成。”摩爾線程CTO張鈺勃說,“對于萬卡集群,僅靠單卡算力還不夠,提供匹配單卡算力的通訊也至關重要。”
卡間互聯和交換機是關鍵。雷峰網了解到,摩爾線程千/萬卡集群的卡間互聯是自研的MTLink,和NVLink作用相同,目前已經演進到MTLink2.0版本。
“我們還沒有交換機芯片,是用行業里的交換機芯片去搭建我們的集群。”張建中透露,“后期我們會自主研發,或者是和行業合作伙伴一起研發下一代大規模的交換機。”
互聯之外的另一個難題是穩定性。
“集群規模越大越不穩定。”張建中對雷峰網(公眾號:雷峰網)表示,“千卡集群故障率可能做到0.1%就可以,萬卡集群要提升到0.01%甚至是0.001%,這對硬件設計和生產制造都是很大的挑戰。摩爾線程投入了很多,確保架構本身的穩定性,以及讓芯片的平均無故障時間更長。”
散熱也是提升萬卡集群穩定性的關鍵,千卡集群還可以考風冷解決,萬卡就需要液冷保證集群的穩定運行。
“還需要不同的容錯機制,在出問題的時候硬件自動恢復,而不是靠軟件。”張建中表示。
為此,摩爾線程推出了智算中心全棧解決方案夸娥(KUAE),以全功能GPU為底座,構建了夸娥計算集群為核心的基礎設施、夸娥集群管理平臺(KUAE Platform)以及夸娥大模型服務平臺(KUAE ModelStudio)的一體化交付的解決方案。

夸娥智算集群也可以實現從千卡至萬卡集群的無縫擴展。
夸娥國產萬卡萬P智算集群的差異化優勢
全新一代夸娥智算集群實現單集群規模超萬卡,浮點運算能力達到10Exa-Flops,大幅提升單集群計算性能,能夠為萬億參數級別大模型訓練提供堅實算力基礎。

同時,夸娥萬卡集群達到PB級的超大顯存總容量、每秒PB級的超高速卡間互聯總帶寬和每秒PB級超高速節點互聯總帶寬,實現算力、顯存和帶寬的系統性協同優化。
算力利用率(MFU)方面,千卡夸娥集群MFU有50%多,萬卡夸娥集群的MFU目標是60%。
穩定性層面,摩爾線程夸娥萬卡集群平均無故障運行時間超過15天,最長可實現大模型穩定訓練30天以上,周均訓練有效率在99%以上。
月級長穩訓練遠超行業平均水平,得益于摩爾線程自主研發的一系列可預測、可診斷的多級可靠機制,包括軟硬件故障的自動定位與診斷預測實現分鐘級的故障定位,Checkpoint多級存儲機制實現內存秒級存儲和訓練任務分鐘級恢復以及高容錯高效能的萬卡集群管理平臺實現秒級納管分配與作業調度。
夸娥智算集群還有一個對所有用戶來說非常友好的特性——CUDA兼容。
“我們的產品跟國內外主流生態在兼容性方面做的很好,開發者移植到夸娥集群幾乎不需要修改代碼,遷移成本接近0,可以在數小時之內就完成遷移工作。”張鈺勃表示,“當然用戶可能需要花數天的時間去調優性能,但整體的遷移成本很低,并不需要幾周這么長的時間。”
在諸多的智算中心中,張建中認為摩爾線程夸娥的差異化優勢在于,是國內唯一一家用全功能GPU實現通用加速計算的公司。

“摩爾線程有1000多人,我們花了4年時間,把GPU的圖形能力、編解碼能力、科學計算能力、人工智能訓練推理能力都做了提升,我們希望能夠搭建首個中國本土通用型的萬卡集群。”張建中指出。
摩爾線程的GPU也幾乎適配了所有國產CPU,這也是夸娥智算集群的差異化所在。
“我們與國內所有的CPU、操作系統一起打造了一個生態系統,叫PES聯盟,形成一個本土化完整生態。”張建中說。

不少人都知道摩爾線程的GPU能做圖形渲染,卻忽視了基于摩爾線程全功能的GPU能夠實現的AI功能。摩爾線程的夸娥千卡集群,已經有包括無問芯穹、清程極智、360、京東云、智平方等合作伙伴。
在摩爾線程夸娥千卡集群上,360分別部署70億、700億參數大語言模型,全程軟硬件即插即用,工作有效訓練時間占比100%;全程穩定無軟硬件故障,集群有效訓練時間占比100%。
京東基于摩爾線程夸娥集群完成Chatglm2-6B、Qwen-14B、baichuan2-13B的大模型推理測試,Chatglm2-6B推理測試,S4000的單卡推理性能是RTX 4090D性能的1.26倍,其他兩個模型,S4000性能均能達到RTX 4090D性能的90%左右。
夸娥萬卡集群,摩爾線程與中國移動通信集團青海有限公司、中國聯通青海公司、北京德道信科集團、中國能源建設股份有限公司總承包公司、桂林華崛大數據科技有限公司,分別就青海零碳產業園萬卡集群項目、青海高原夸娥萬卡集群項目、廣西東盟萬卡集群項目進行了戰略簽約。
接下來,夸娥萬卡智算集群就將考驗摩爾線程能夠作為一家系統級公司,解決國內AI算力緊缺的難題。
張建中要帶領摩爾線程做難而正確的事。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。