首次披露！DeepSeek V3 發布軟硬一體協同訓練論文，公開“降成本”秘訣

本文作者：鄭佳美洪雨欣

2025-05-15 14:32

導語：V3 的成本下降密碼，是軟硬協同設計。

就在剛剛，DeepSeek團隊發布最新論文《洞察 DeepSeek-V3：規模的挑戰和對AI架構硬件的思考》。

論文鏈接：https://arxiv.org/pdf/2505.09343

在保持性能不變的情況下，論文采用了雙重視角——跨越硬件架構和模型設計，通過研究這種協同作用，探索 DeepSeek-V3 如何實現經濟高效的大規模訓練和推理。

隨著 OpenAI o1/o3、DeepSeek-R1、Claude-3.7 Sonnet 等先進模型的出現，大規模架構和上下文推理的進步強調了對更快、更高效推理的需求。因此，計算資源的需求也在逐步擴大。

DeepSeek 的出現證明了有效的軟硬件協同設計可以實現大型模型的成本效益訓練，為較小的團隊提供公平的競爭環境。

基于這一傳統，DeepSeek-V3 代表了成本效益訓練的新里程碑，僅需 2,048 個 NVIDIA H800 GPU 就實現了最先進的性能。DeepSeek-V3 的實踐和見解展示了如何充分利用現有硬件資源，為更廣泛的 AI 和 HPC 社區提供寶貴的經驗教訓。

論文章節的主要內容如下：

DeepSeek 模型的設計原則

低精度驅動設計

以互聯為驅動的設計

大規模網絡驅動設計

面向未來的硬件架構設計

DeepSeek 模型的設計原則

如下圖所示，DeepSeek-V3 采用 DeepSeek-MoE 和多頭潛在注意力（MLA）架構，通過壓縮鍵值（KV）緩存大大減少了內存消耗。此外，DeepSeek-V3 還采用了 FP8 混合精度訓練，顯著降低了計算成本。

首次披露！DeepSeek V3 發布軟硬一體協同訓練論文，公開“降成本”秘訣

這些創新旨在解決LLM規模中的三個核心挑戰——內存效率、成本效益和推理速度。

LLM 通常需要大量的內存資源，內存需求每年增長 1000% 以上。相比之下，高速內存（例如 HBM）容量的增長速度要慢得多，通常每年不到 50%。與使用 BF16 進行權重的模型相比，FP8 將內存消耗顯著降低了一半，有效緩解了 AI 內存挑戰。

DeepSeek-V3 還采用了多頭潛在注意力（MLA），它使用投影矩陣將所有注意力頭的 KV 表示壓縮成一個更小的潛在向量，該矩陣與模型聯合訓練。在推理過程中，只需要緩存潛在向量，與存儲所有注意力頭的 KV 緩存相比，顯著減少了內存消耗。

除了 MLA 之外，DeepSeek 還提出了其他幾種方法來減小 KV 緩存的大小：

共享 KV：多頭共享一組 KV 配對，從而顯著壓縮了 KV 存儲。

窗口 KV：對于長序列，緩存中只保留 KV 配對的滑動窗口。

量化壓縮：KV 配對使用low-bit進行存儲，進一步減少了內存使用。

對于稀疏計算，DeepSeek 還開發了 DeepSeek-MoE 架構，MoE 模型的優勢在于兩個方面：

第一，減少訓練的計算要求：MoE 架構的主要優勢在于它能夠顯著降低訓練成本。通過選擇性地僅激活專家參數的子集，MoE 模型允許參數總數急劇增加，同時保持計算要求適中。

首次披露！DeepSeek V3 發布軟硬一體協同訓練論文，公開“降成本”秘訣

如圖表2所示，DeepSeek-V3 的總計算成本約為每個令牌 250 GFLOPS，而 72B 密集模型需要 394 GFLOPS，405B 密集模型需要 2448 GFLOPS。這表明 MoE 模型實現了與密集模型相當甚至更好的性能，同時消耗的計算資源減少了一個數量級。

第二，個人使用和本地部署的優勢：由于每個請求只激活了一個參數子集，因此內存和計算需求大大減少。例如，DeepSeek-V2（236B 參數）在推理過程中僅激活 21B 參數。這使得配備 AI SoC 芯片的 PC 能夠實現每秒近 20 個令牌（TPS）。相比之下，具有相似能力的密集模型（70B 參數）在類似硬件上通常只能達到個位數的 TPS。

除此之外，為了最大限度地提高吞吐量，DeepSeek-V3 從一開始就被構建為利用雙微批處理重疊，有意將通信延遲與計算重疊。它將 MLA 和 MoE 的計算解耦為兩個不同的階段，當一個微批處理執行 MLA 或 MoE 計算的一部分時，另一個微批處理同時執行相應的調度通信。相反，在第二個微批處理的計算階段，第一個微批處理經歷組合通信步驟。

這種流水線化方法實現了全對全通信與正在進行的計算的無縫重疊，確保 GPU 始終保持充分利用。此外，在生產中，V3 還采用預填充和解碼解聚架構，將大批量預填充和延遲敏感的解碼請求分配給不同的專家并行組大小，這可以最大限度地提高系統吞吐量。

雖然 MoE 模型表現出良好的可擴展性，但僅通過增加硬件資源來實現高推理速度的成本很高。因此，軟件和算法也必須有助于提高推理效率。

DeepSeek-V3 引入了多標記預測（MTP）框架，該框架同時增強了模型性能并提高了推理速度。MTP 可以讓模型能夠以較低的成本生成額外的候選標記并并行驗證，緩解了解碼步驟中標記順序生成的瓶頸，在不影響準確性的情況下顯著加快了推理速度。

真實世界的實踐數據表明，MTP 模塊預測第二個后續令牌的接受率為 80% 到 90%，與沒有 MTP 模塊的場景相比，生成 TPS 提高了 1.8 倍。

此外，通過預測每步多個令牌， MTP 增加了推理批量大小，這對于提高 EP 計算強度和硬件利用率至關重要。

低精度驅動設計

雖然 GPTQ 和 AWQ 等量化技術已將位寬減少到 8 位、 4 位甚至更低，但是這些技術主要應用于推理期間以節省內存，而不是在訓練階段。在 DeepSeek-V3 之前，沒有利用 FP8 進行訓練的開源大型模型。

DeepSeek 通過基礎設施和算法團隊之間的深入合作，為 MoE 模型開發了一個與 FP8 兼容的訓練框架，在訓練管道中使用 FP8 精度前向和后向過程的計算組件。

雖然 FP8 在加速訓練方面具有巨大潛力，但需要解決幾個硬件限制才能充分利用其功能：

FP8 累積精度： FP8 在 Tensor Core 中使用約束累加精度，這會影響訓練大型模型的穩定性

細粒度量化挑戰：細粒度量化在傳輸部分結果時引入了大量的反量化開銷，會導致頻繁的數據移動，從而降低計算效率并使硬件利用率復雜化

為了解決現有硬件的限制，DeepSeek 對未來的設計有以下建議：

提高累積精度：硬件應改進并調整 Accumulation Register 精度到適當的值（例如 FP32），或支持可配置的 Accumulation Precision

對原生細粒度量化的支持：硬件應該支持原生細粒度量化，使 Tensor Core 能夠接收縮放因子并通過組縮放實現矩陣乘法，避免頻繁的數據移動以減少去量化開銷。

DeepSeek-V3 架構采用低精度壓縮進行網絡通信。在 EP 并行期間，使用細粒度的 FP8 量化來調度令牌，與 BF16 相比，通信量減少了 50%，顯著縮短了通信時間。

他們的建議是，為 FP8 或自定義精度格式定制的壓縮和解壓縮單元提供本機支持是未來硬件的可行方法。這有助于最大限度地減少帶寬需求并簡化通信管道，能大幅提升 MoE 訓練等帶寬密集型任務的效率。

以互聯為驅動的設計

研究團隊當前使用的 NVIDIA H800 GPU SXM 架構，基于 Hopper 架構，類似于 H100 GPU。然而，它為了滿足監管要求，降低了 FP64 浮點計算性能和 NVLink 帶寬。具體來說，H800 SXM 節點中的 NVLink 帶寬從 900 GB/s 降低到了 400 GB/s。這個節點內部帶寬的顯著下降對高性能工作負載帶來了挑戰。

首次披露！DeepSeek V3 發布軟硬一體協同訓練論文，公開“降成本”秘訣

為了解決這個問題，他們在每個節點都配備了 8 張 400G 的 Infiniband（IB）CX7 網卡，從而增強了向外擴展（scale-out）的能力，以彌補帶寬不足。為了應對這些硬件限制，DeepSeek-V3 模型在設計時結合了多項考慮，既貼合了硬件的優勢，也規避了其局限。

為適配 H800 架構的硬件限制，DeepSeek-V3 在并行策略上還進行了如下優化：

避免使用張量并行（TP）：在訓練階段，TP 因為受限的 NVLink 帶寬效率低下而被禁用。但在推理階段，TP 可以被選擇性地啟用，用于降低延遲和提升 TPOT（Tensor Parallel Optimized Transformer）性能。

增強的流水線并行（PP）：采用 DualPipe 機制，以便將注意力計算和 MoE 計算與通信重疊。這也有助于減少流水線空泡，并在多個 GPU 間平衡內存使用，從而提升整體吞吐量。

加速的專家并行（EP）：借助 8 張 400Gbps 的 Infiniband（IB）網卡，系統可以實現超過 40GB/s 的全互聯通信。

然而在 H800 架構中，節點內（intra-node）通信與節點間（inter-node）通信的帶寬差異約為 4:1。具體來說，NVLink 提供 200GB/s 的帶寬（實際可用約 160GB/s），而每張 400Gbps 的 IB 網卡實際帶寬約為 50GB/s（考慮小消息和延遲因素后，計算為 40GB/s 的有效帶寬）。

為了充分利用更高的節點內帶寬，模型架構特別在 TopK 專家選擇策略中，與硬件協同設計。

設想一個系統包含 8 個節點（共 64 張 GPU），以及 256 個路由專家（每張 GPU 有 4 個專家）。在 DeepSeek-V3 中，每個 token 會被路由到一個共享專家和 8 個路由專家。如果這 8 個目標專家平均分布在所有節點上，那么 token 在 IB 上的通信成本將是 8t（t 為傳輸一個 token 所需時間）。

但如果利用 NVLink 的更高帶寬，將路由到同一節點的 token 先在節點內通過 NVLink 傳輸，再由該節點的 GPU 使用 IB 轉發到其他節點，這種 NVLink 中繼方式可以顯著減少 IB 流量。當目標專家分布在 M 個節點時，這種策略可將通信成本降低為 Mt（M < 8）。

為實現這一策略，DeepSeek-V3 引入了節點受限的專家路由策略（Node-Limited Routing）。

具體來說，研究人員將 256 個路由專家分成 8 組，每組 32 個專家，并且每組部署在同一個節點上，而在實際部署時，他們使用算法保證每個 token 最多只會被路由到最多 4 個節點。這種做法有效地緩解了 IB 通信的瓶頸，提升了訓練期間通信帶寬的使用效率。

雖然節點受限路由策略（Node-Limited Routing）在一定程度上降低了通信帶寬的需求，但由于節點內（NVLink）和節點間（IB）通信帶寬之間存在差異，這也使得通信流水線內核的實現變得更為復雜。

在實際操作中，GPU 的流處理器（ SM）既用于處理網絡消息（例如填充 QPs 和 WQEs），也用于通過 NVLink 進行數據轉發，這會消耗大量計算資源。例如，在訓練過程中，H800 GPU 上多達 20 個 SM 被分配給與通信相關的操作，從而減少了用于實際計算的資源。

為最大化在線推理的吞吐量，研究團隊在 EP（專家并行）全互聯通信中完全采用 NIC RDMA，實現通信與計算資源的分離，避免 SM 資源競爭，從而提升計算效率。這也凸顯了 RDMA 的異步通信模型在計算與通信重疊處理方面的優勢。

當前，在 EP 通信（特別是 combine 階段的 reduce 操作與數據類型轉換）中，SM 執行的主要任務包括：

數據轉發：聚合目標為同一節點中多個 GPU 的 IB 流量，實現 IB 與 NVLink 域之間的數據橋接；

數據傳輸：在 RDMA 緩沖區（GPU 注冊內存區域）與輸入/輸出緩沖區之間傳輸數據；

規約操作：執行 EP combine 所需的規約操作；

內存布局管理：對穿越 IB 和 NVLink 域的分塊數據進行精細化內存布局管理；

數據類型轉換：在 all-to-all 通信前后執行數據類型的轉換。

研究團隊還給出了一些如何在編程框架層面實現 scale-up 與 scale-out 的融合建議：

統一網絡適配器：設計能夠同時連接 scale-up 與 scale-out 網絡的 NIC（網絡接口卡）或 I/O Die。這些適配器應具備基本的交換功能，比如能將來自 scale-out 網絡的包轉發到 scale-up 網絡中的特定 GPU。可以通過一個 LID（本地標識符）或帶有策略路由的 IP 地址實現。

專用通信協處理器：引入一個專用協處理器或可編程組件（如 I/O die），用于處理網絡流量。這種組件可將報文處理任務從 GPU 的 SM 上卸載，避免性能下降，并具備硬件加速的內存拷貝能力，以提升緩存管理效率。

靈活的轉發、廣播和規約機制：硬件應支持靈活的轉發、EP 分發階段的廣播操作、以及 EP 聚合階段的規約操作，這些機制需跨越 scale-up 與 scale-out 網絡運行。這樣可以復現我們當前基于 GPU SM 的實現邏輯，不僅提升了有效帶寬，也減少了網絡操作的計算復雜度。

硬件同步原語（Hardware Synchronization Primitives）：提供更精細粒度的硬件同步指令，用于處理內存一致性問題或亂序報文抵達問題。這將替代基于軟件的同步機制（如 RDMA 的完成事件），后者通常會引入額外的延遲并增加編程復雜度。基于 acquire/release 模型的內存語義通信是一個有前景的解決方案。

他們認為，通過實現上述建議，未來的硬件設計將能夠顯著提升大規模分布式 AI 系統的效率，同時簡化軟件開發的復雜度。

大規模網絡驅動設計

在 DeepSeek-V3 的訓練過程中，研究團隊部署了一個“多平面胖樹”（Multi-Plane Fat-Tree, MPFT）scale-out 網絡。每個節點配備了 8 張 GPU 和 8 張 IB 網卡，每對 GPU-NIC 映射到一個獨立的網絡平面（plane）。

首次披露！DeepSeek V3 發布軟硬一體協同訓練論文，公開“降成本”秘訣

這是一個八平面、兩層的胖樹結構網絡，其中每對 GPU 和 IB NIC 映射到一個網絡平面，并且跨平面的流量必須通過另一個 NIC，并通過 PCIe 或 NVLink 進行節點內轉發。

在保留兩層網絡拓撲在成本和延遲方面優勢的同時，由于政策和監管限制，最終實際部署的 GPU 數量僅略高于 2000 張。

此外，每個節點還配有一張 400Gbps 的以太網 RoCE NIC，用于連接分布式存儲系統 3FS 所在的獨立存儲網絡平面。在該 scale-out 網絡中，我們使用了 64 端口的 400G IB 交換機，從理論上講，這種拓撲可支持最多 16384 張 GPU。

然而，由于 IB ConnectX-7 的當前技術限制，他們部署的 MPFT 網絡尚未完全實現理想架構。

理想情況下，每張 NIC 應該具備多個物理端口，每個連接到不同的網絡平面，但對用戶而言，它們通過端口綁定暴露為一個統一的邏輯接口。

首次披露！DeepSeek V3 發布軟硬一體協同訓練論文，公開“降成本”秘訣

從用戶角度來看，單個 QP（隊列對）可以跨所有可用端口無縫收發數據包，類似于“報文噴灑”（packet spraying）。但這也帶來了一個問題：同一個 QP 發出的數據包可能通過不同的網絡路徑傳輸，導致到達接收端時的順序被打亂，因此需要 NIC 提供原生的亂序報文排序能力。

研究團隊還介紹了多平面胖樹網絡的優勢：

多軌胖樹（MRFT）的子集：MPFT 拓撲結構是更廣義的 Multi-Rail Fat-Tree（MRFT）架構的一個特定子集。因此，NVIDIA 和 NCCL 為多軌網絡開發的現有優化策略可以無縫應用到多平面網絡的部署中。此外，NCCL 對 PXN（Port eXtended Network）技術的支持，解決了平面間通信隔離的問題，即便在平面之間沒有直接互聯的情況下，也能實現高效通信。

成本效益高（Cost Efficiency）：多平面網絡使用兩層胖樹（FT2）拓撲即可支持超過 1 萬個端點，顯著降低了與三層胖樹（FT3）架構相比的網絡成本。其每個端點的成本甚至比高性價比的 Slim Fly（SF）拓撲還要更低。

流量隔離（Traffic Isolation）：每個平面獨立運行，確保某一個平面的擁塞不會影響到其他平面。這種隔離機制提高了整體網絡的穩定性，并防止級聯式性能下降的發生。

低延遲（Latency Reduction）：實驗表明，兩層胖樹（Two-Layer Fat Tree）拓撲相較于三層胖樹具有更低的延遲。這一點使其特別適合延遲敏感型任務，如基于 MoE 架構的大模型訓練與推理。

魯棒性（Robustness）：配備多端口的 NIC 提供多個上行鏈路，因此即使某個端口發生故障，也不會導致通信中斷，系統能夠實現快速、透明的故障恢復。

值得注意的是，由于當前 400G NDR InfiniBand 的限制，跨平面通信仍需通過節點內的轉發實現，這在推理過程中會引入額外的延遲。如果未來硬件能夠實現之前建議的 scale-up 與 scale-out 網絡的融合，那么這種延遲將大大減少，從而進一步增強多平面網絡的可行性。

首次披露！DeepSeek V3 發布軟硬一體協同訓練論文，公開“降成本”秘訣

為了驗證多平面網絡設計的有效性，研究人員在實際部署的集群上進行了一系列實驗。通過修改集群的網絡拓撲，我們比較了多平面兩層胖樹（MPFT）和單平面多軌胖樹（MRFT）在性能上的差異。

他們發現在全互聯通信任務中，多平面網絡的性能幾乎與單平面多軌網絡持平。這一性能上的一致性歸因于 NCCL 的 PXN 機制 [54]，它能在多軌拓撲中優化 NVLink 的流量轉發，而多平面拓撲同樣可以受益于該機制。

首次披露！DeepSeek V3 發布軟硬一體協同訓練論文，公開“降成本”秘訣

而在 16 張 GPU 上進行的 all-to-all 通信測試中，MPFT 與 MRFT 在延遲方面幾乎沒有差異。

首次披露！DeepSeek V3 發布軟硬一體協同訓練論文，公開“降成本”秘訣

為了進一步評估 MPFT 在實際訓練中的表現，他們還測試了訓練中常見的專家并行通信（EP）模式。在多平面網絡中，每張 GPU 都能達到超過 40GB/s 的高帶寬，表明其在訓練場景下具有出色且穩定的通信能力。

研究人員還比較了 DeepSeek-V3 模型在 MPFT 與 MRFT 網絡中的訓練指標：

MFU（Model Flops Utilization）指標是基于 BF16 理論峰值計算的；

Causal MFU 只考慮注意力矩陣下三角部分的 FLOPs；

Non-Causal MFU 則包括整個注意力矩陣的 FLOPs；

表中 1F、1B 和 1W 分別代表前向時間、輸入反向傳播時間、權重反向傳播時間。

實驗顯示，在 2048 張 GPU 上訓練 V3 模型時，MPFT 的整體性能幾乎與 MRFT 持平，兩者間的性能差異完全處于正常波動范圍內。

首次披露！DeepSeek V3 發布軟硬一體協同訓練論文，公開“降成本”秘訣

除此之外，團隊還對 InfiniBand 還是 RoCE 的問題進行了實驗，他們發現 InfiniBand（IB）在延遲方面始終優于 RoCE，因此成為分布式訓練和推理等延遲敏感型任務的首選網絡方案。

不過，盡管 IB 擁有更低的延遲表現，但它也存在一些實際限制：

成本（Cost）：IB 硬件遠比 RoCE 成本高，限制了其在更大范圍的部署中普及。

可擴展性（Scalability）：IB 交換機通常最多支持 64 個端口，而 RoCE 交換機常見為 128 個端口。這使得 IB 在構建超大規模集群時面臨擴展性瓶頸。

首次披露！DeepSeek V3 發布軟硬一體協同訓練論文，公開“降成本”秘訣

盡管 RoCE 被認為是 IB 的一個高性價比替代方案，但目前在延遲和可擴展性上的不足，限制了其在大規模 AI 系統中的應用潛力，介于這一點，研究團隊也對 RoCE 提出了一些優化意見：

專用低延遲 RoCE 交換機：他們建議以太網設備廠商開發專為 RDMA 工作負載優化的 RoCE 交換機，去除那些不必要的傳統以太網功能。

例如，Slingshot 架構就展示了如何通過以太網設計實現接近 IB 的低延遲性能。類似地，Broadcom 的一系列新技術也展現出在 AI 應用場景中的巨大潛力，包括 AI Forwarding Header（AIFH）機制和即將發布的低延遲以太網交換機。這些創新展示了基于以太網的高性能 RDMA 網絡是完全可行的。

優化的路由策略：RoCE 默認采用 ECMP（Equal-Cost Multi-Path）路由策略，在跨互聯網絡時難以高效地分散流量，常常導致 NCCL 集合通信中的嚴重擁塞和性能下降。

例如，在數據并行（DP）訓練中，LLM 的通信流量往往缺乏足夠的隨機性，導致多個流聚集到同一個鏈路，引發瓶頸。而自適應路由（Adaptive Routing, AR）可以動態地將數據包“噴灑”到多條路徑上，從而顯著提升網絡性能。雖然手動配置的靜態路由表（Static Routing）能在特定目標下避免鏈路沖突，但它缺乏靈活性。對于大規模 all-to-all 通信，自適應路由無疑在性能和擴展性方面更具優勢。

首次披露！DeepSeek V3 發布軟硬一體協同訓練論文，公開“降成本”秘訣

改進的流量隔離與擁塞控制機制：

當前的 RoCE 交換機通常僅支持有限數量的優先隊列（priority queues），這對于同時涉及多種通信模式（如 EP 的 all-to-all 與 DP 的 all-reduce）的復雜 AI 工作負載來說遠遠不夠。在這種混合通信場景中，all-to-all 會因突發性的一對多傳輸引發“入端擁塞（incast congestion）”，嚴重時會拖慢整條網絡路徑的性能。

研究團隊認為可以使用虛擬輸出隊列：為每個隊列對（QP）分配一個虛擬隊列，做到流量級別的隔離，以及使用更高效的擁塞控制機制，如基于 RTT 的擁塞控制（RTTCC），或用戶可編程的擁塞控制（PCC）。這些機制可以實現網卡與交換機之間的協同優化，在動態流量條件下保持低延遲與高吞吐。

最后，研究人員表示他們自己是使用 IBGDA 技術來降低網絡通信中的延遲。而傳統的 GPU 網絡通信流程中通常需要通過 CPU 協程作為代理線程，為此他們還貼心的整理出了流程：

GPU 準備好要發送的數據、通知 CPU 代理、CPU 填寫控制信息（Work Request, WR），然后通過 doorbell 機制通知網卡啟動數據傳輸。

他們表示這種方式引入了不小的通信開銷。而 IBGDA 則通過允許 GPU 直接填寫 WR（無需經過 CPU），極大減少了中間環節的延遲，提高了通信效率。

面向未來的硬件架構設計

研究團隊在識別了當前硬件面臨的限制，并提出了相應的建議后，將視野擴展至更宏觀的層面，提出未來硬件架構設計的前瞻性方向。他們認為當前主要的限制包括：

互聯故障（Interconnect Failures）：高性能互聯系統（如 InfiniBand 與 NVLink）易受到間歇性斷連的影響，這會破壞節點之間的通信。在通信密集型任務（如專家并行 EP）中，即便是短暫的通信中斷，也可能造成明顯的性能下降，甚至任務失敗。

單點硬件故障（Single Hardware Failures）：節點宕機、GPU 故障，或 ECC（糾錯碼）內存錯誤都可能影響到長時間運行的訓練任務，往往需要代價高昂的任務重啟。在大規模部署中，這類單點故障的概率隨著系統規模的擴大而急劇上升。

靜默數據損壞（Silent Data Corruption）：某些錯誤（如多位內存翻轉、計算錯誤等）可能逃逸 ECC 機制的檢測，造成模型訓練中的數據悄然被破壞。這類錯誤最為隱蔽，會在長時間訓練過程中積累，導致下游計算被污染，嚴重損害模型質量。當前的緩解措施主要依賴于應用層啟發式檢測，但這不足以確保系統層面的整體魯棒性。

他們還認為，為了應對傳統 ECC 所無法覆蓋的錯誤類型，硬件需要引入更先進的檢測機制。例如：基于校驗和（checksum）的驗證機制、硬件加速的冗余校驗（redundancy checks）。這些方法能為大規模部署提供更高的系統可靠性。

此外，硬件廠商應向最終用戶提供全面的診斷工具包，以支持其對系統完整性的驗證，并及時識別潛在的靜默數據損壞風險。若這些工具作為標準硬件的一部分預裝，能夠實現持續運行期內的驗證流程，從而提升整個系統的透明度與可信度。

盡管加速器（如 GPU）往往成為設計焦點，但CPU 依舊是協調計算任務、管理 I/O 操作、保持系統吞吐量不可或缺的關鍵組件。但研究團隊認為當前架構存在幾個嚴重瓶頸：

PCIe 成為瓶頸：CPU 與 GPU 之間的 PCIe 接口在傳輸大規模參數、梯度或 KV 緩存時，常成為帶寬瓶頸。

為此，研究團隊也給出了一些建議，他們認為未來系統應采用CPU-GPU 直連方式（如 NVLink、Infinity Fabric），或將 CPU 與 GPU 一并納入 scale-up 域中，從根本上消除節點內互聯瓶頸。

內存帶寬不足：為了支撐高速數據傳輸，還需匹配足夠高的內存帶寬。例如，要跑滿 160 條 PCIe 5.0 通道，需要每個節點擁有 640 GB/s 的 IO 吞吐，對應約 1 TB/s 的內存帶寬，這對傳統 DRAM 架構構成巨大挑戰。

對 CPU 性能的需求提升：

在 Chiplet 架構中，還需更多核心支持按緩存感知方式（cache-aware）劃分與隔離負載。

同時，為避免控制側成為瓶頸，每張 GPU 需要配備足夠多的 CPU 核；

對于內核調度、網絡處理等低延遲任務，需要基礎頻率在 4GHz 以上的單核性能；

除此之外，他們還提出了幾個關鍵方向，為滿足低延遲、高效率的 AI 工作負載，未來的互聯網絡不僅要具備低延遲，更應具備“智能感知能力”，指出了一條道路：

共封裝光學（Co-Packaged Optics）：通過集成硅光技術，可實現可擴展的超高帶寬與能效比，這對構建大規模分布式系統至關重要。

無損網絡（Lossless Network）：雖然基于信用的流量控制（CBFC）機制可以保證無損數據傳輸，但如果觸發方式不當，會導致嚴重的“隊頭阻塞”（head-of-line blocking）。因此，必須部署由終端主動驅動的高級擁塞控制（Congestion Control, CC）算法，主動調節注入速率，防止極端擁塞情況的發生。

自適應路由（Adaptive Routing）：未來網絡應標準化動態路由機制，例如“分包噴灑（packet spraying）”與“擁塞感知轉發”。

對于 load/store 的內存語義通信在跨節點通信中具備效率高、編程友好的優勢，但當前的實現常受限于內存順序約束（memory ordering）的問題，研究團隊也給出了自己的意見。

他們先是舉了個例子：發送方在寫入數據后，必須先執行一次內存屏障（memory fence），再更新通知接收方的標志位，才能確保接收方讀到的是“已完成寫入”的數據。這種強順序要求帶來額外的 RTT 延遲，并可能阻塞當前線程，降低系統的吞吐量。

類似地，在消息語義的 RDMA 場景中也存在亂序同步的問題。例如，在 InfiniBand 或 NVIDIA BlueField-3 上，在 RDMA 寫之后再執行基于分包噴灑的 RDMA 原子加操作，也會引發額外的 RTT 延遲。

然后給出了建議：在硬件層面加入對內存語義通信順序的一致性保障，包括編程接口層面支持 acquire/release 語義，以及在接收端由硬件保證順序投遞（in-order delivery），避免引入軟件側開銷。

一種可行的方法是：接收方緩存原子消息，并利用數據包序號確保按序處理。然而，他們認為更優雅也更高效的方式是使用 Region Acquire/Release（RAR）機制：

硬件在接收端維護一個 bitmap，用于記錄某段 RNR（remote non-registered）內存區域的狀態，acquire/release 操作在此地址范圍內生效，并且只需極小的 bitmap 開銷，即可實現由硬件強制的通信順序保障，最重要的是，這一機制理想情況下可由 NIC 或 I/O Die 來實現。

最后研究團隊強調，RAR 不僅適用于內存語義操作，也同樣能擴展到 RDMA 的消息語義原語中，具有廣泛的實用性。

雷峰網(公眾號：雷峰網)關注到，他們還認為在混合工作負載環境下，未來硬件應該具備動態帶寬分配和流量優先級控制的能力。例如，在訓練與推理任務混合部署的場景中，應當將推理請求從訓練任務中隔離，以確保延遲敏感型應用的響應速度。

此外，未來網絡還應當：

采用智能路徑選擇策略，實時監測網絡狀態，智能分流，緩解通信熱點；

支持自愈協議、冗余端口、快速故障切換（failover）機制，保障系統的魯棒性；

具備高效的擁塞控制機制，比如端側主導的流控與注入速率調節機制，避免嚴重擁塞；

支持 lossless 網絡協議但避免“隊頭阻塞”問題，比如通過優化 CBFC（基于信用的流控）與自適應擁塞感知機制配合。

最后，研究團隊指出模型規模的指數級增長，已經遠遠超過了高帶寬內存（HBM）技術的進展速度。這種不匹配導致了嚴重的內存瓶頸，特別是在以注意力機制為核心的架構（例如 Transformer）中，內存帶寬限制成為性能提升的最大障礙。

為此他們也提出了兩點建議：

DRAM 堆疊加速器（DRAM-Stacked Accelerators）：借助先進的三維堆疊（3D stacking）技術，可以將 DRAM 芯片垂直整合在計算邏輯芯片之上。這種設計能夠提供極高的內存帶寬、超低延遲，同時具備實用的內存容量（盡管受限于堆疊層數）。對于專家混合（MoE）模型中的超高速推理任務，這種架構極具優勢，因為它能顯著緩解內存吞吐瓶頸。例如，SeDRAM 架構就展示了這種模式的潛力，在內存受限的工作負載下提供了前所未有的性能表現。

晶圓級系統集成（System-on-Wafer, SoW）：晶圓級集成技術通過將多個計算單元和存儲模塊整合在一整塊晶圓上，可以最大化計算密度與內存帶寬，滿足超大規模模型在訓練與推理階段對存儲和帶寬的極端需求。

他們表示，這些內存中心的架構創新，旨在打破當前內存發展滯后于模型規模擴張的瓶頸，是下一代 AI 系統持續邁向“更大、更快、更穩”的關鍵路徑之一。同時這些方案也在 DeepSeek-V3 訓練與推理實踐中均取得了實效，為下一代高性能 AI 系統構建了堅實的內存支撐基礎。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

鄭佳美

編輯

發私信

當月熱門文章