0
| 本文作者: 朱可軒 | 2025-03-10 10:02 |
作者丨朱可軒
編輯丨陳彩嫻
近日,“源神”Deepseek 密集開源了一系列代碼庫,包括FlashMLA、DeepEP、DeepGEMM、DualPipe 等項目及 3FS 系統,幾乎實現了對 AI Infra 底層計算、網絡、存儲的全覆蓋式優化,這對于 AI Infra 而言也能提供許多有價值的參考。
當前,國內 AI Infra 領域公司圍繞 DeepSeek 帶來的一系列啟發,也正在思考下一步大模型訓推優化更好的解決方案,驛心科技便是其中之一。
上周 DeepSeek 開源 3FS 等一系列組件,充分說明了從存儲到網絡往 GPU 里面傳輸數據的能力是 AI 訓練和推理中最重要的問題,這也正是驛心科技想解決的核心技術問題。

據了解,驛心科技于 2023 年 9 月由前曠視科技創始合伙人吳文昊成立,致力于從基礎架構做研發,基于 GPU 服務器本地存儲與通用以太網絡,提供與傳統智算基于 RDMA 的存儲網絡、單獨部署商業訓練存儲同等的能力,大幅降低模型落地成本與加速部署,方便后續在 DeepSeek 等通用模型層面做優化,加速模型的運行效率。
值得注意的是,驛心所用的硬件完全是使用標準企業服務器以及標準網絡,不需要任何的定制硬件、網絡和軟件。相比之下,過去 AI Infra 部署使用的傳統高性能文件存儲往往需要使用定制硬件服務器,特定網絡交換,以及定制的操作系統內核和客戶端。
換言之,驛心所提出的 AI Infra 整體解決方案效率更高、性價比更高。
重構之下的新機會
在常規視野中,AI Infra 包含供應鏈和云兩層,但經過兩年的 AGI 技術躍進,大模型逐漸成為基礎設施的趨勢已然明朗,許多觀點認為模型甚至可能成為新的“OS”。
而在此之中,架構重構和供應鏈重構為 AI Infra 帶來了創業空間。
架構方面,HPC、云和 AI 所需要的 Infra 均存在差異。首先,云的計算、網絡和存儲并非專門為 AI 或者 HPC 設計優化的,當中的不匹配會帶來價值差:云圍繞網絡而生,通過 CPU、網絡、存儲資源的超賣解決利潤問題,不能超賣則沒有利潤來源。
隨著 AI Infra 的大規模興起,這個價值點已經被重構了,因為 AI Infra 以 GPU 為中心,基于此,云大廠很難提供最為優化的底層 Infra,因為其還需要照顧到自身云原生應用的 Infra 需求。
此外,AI 雖然從 HPC 孵化而來,二者也都追求千卡萬卡的規模,但從計算范式上看存在差距:本質在于 HPC 聚焦于做仿真、模擬世界的運行,追求確定性,需要高精度計算,而 AI 追求概率,需要的是 next token 夠準確。
除技術架構外,國內芯片供應鏈重構也正在催生巨大的 AI Infra 機會,DeepSeek 無疑進一步推動了重構的發生。
在重構發生的同時,算力設備、能耗、機房空間和資金四大瓶頸也限制了 AI 算力的發展。對此,驛心依托 GPU 服務器本地存儲與通用以太網絡,構建了一套獨具優勢的一體化解決方案:

Tier 0 ← Tier 1
首先是 AI 集群一體化方案技術創新:驛心的 Tier-0 存儲方案能有效利用 GPU 服務器內部存儲,在搭建AI基礎集群設施時,不需要再構建專屬的存儲集群以及存儲網絡,大幅削減了模型落地成本,顯著加速了部署進程。
這不僅為企業和科研機構減輕了經濟負擔,更讓先進的人工智能模型能夠以更快的速度從理論走向實踐,賦能千行百業。
其次在 AI 存儲層面,驛心科技能支持多云多數據中心的全局文件系統(Global Namespace),讓大模型的上載與更新完全無縫進行,提供統一的存儲管理,讓 AI 數據訪問更高效。
不僅能夠支持傳統的文件和對象存儲,也能利用好 DeepSeek 剛剛開源的 3FS 并行文件系統;具備智能的數據分層和緩存機制,可快速響應 AI 工作負載對數據的需求,提升訓練和推理速度;有強大的數據安全與保護功能,保障 AI 數據的完整性和機密性;還能靈活擴展,輕松應對 AI 項目中不斷增長的數據量需求。
在模型優化層面,驛心科技立足前沿,積極布局和擁抱開源生態。其解決方案為后續在 DeepSeek 等通用模型的優化工作提供了堅實基礎,能夠深度挖掘模型潛力,全方位加速模型運行效率,讓人工智能真正做到快而準,助力客戶在瞬息萬變的市場競爭中搶占先機,引領行業發展新潮流。
驛心的解決方案無疑精準解決了目前 AI 訓練與推理的主要痛點,這些痛點的洞察背后,實際上也與吳文昊橫跨 HPC、云計算和 AI 的經歷有一定關系:

從 1999 年清華本科畢業到美國,直到 2008 年去微軟,這期間吳文昊一直在做 HPC,博士期間他主要做矩陣計算高性能實現與并行計算 MPI 協議研發,2008 年到微軟之后負責微軟 HPC 及微軟云 Azure 產品管理,2011 年,吳文昊作為微軟云 Azure 存儲團隊的 PM 負責了 Mellanox 進微軟云 Azure 的項目。
隨后的 2013 年,吳文昊離開微軟,加入企業閃存市場“開拓者”Fusion-io,并于 2015 年回國加入曠視,此后一直聚集于 AI,一直到 2020 年正式離開曠視。
當前的驛心科技,已重點布局三個領域:
一是云和大模型,這部分客戶的痛點主要在于自研、交付及客戶服務成本高,繼而需要專業存儲、獨立網絡互聯互通、多云數據同步與遷移,以及輕量級客戶服務界面。
據吳文昊介紹,這方面驛心目前已經在國內頭部互聯網大廠完成了 技術驗證,并且后者在全球只評測了兩家,除驛心外還有一家美國存儲公司。
二是AI研發類客戶,涵蓋汽車、自動駕駛,乃至機器人等垂直行業,其對 AI 和 GPU 存儲能力需求不斷攀升。這類企業利用 AI 技術最快完成行業內 AI 閉環,如自動駕駛,通常通過物理產品與 VLA 模型服務(視覺 + 語言 + 行動)實現 AI 閉環。
對此,就需要驛心提供專業 AI Infra 解決方案以及 VLA 模型與數據能力,來幫助他們構建垂直行業解決方案。目前,驛心也正加深同比亞迪電子的合作,繼而提供針對AI研發類客戶的一體機聯合解決方案。
值得一提的是,吳文昊也將這部分客戶描述為“AI 工廠”。在他看來,“從第一性原理出發,DeepSeek 的出現正說明了中國是真正的‘AI 工廠’。先不論 GPU 在哪生產,如果要打造 AI 工廠,最終供應鏈仍將來自中國。”
第三類客戶為傳統客戶,包含半導體、制造、金融、能源等行業,它們需要安全、可擴展的存儲解決方案。與 AI 研發類企業相比,這類企業 AI 需求增長較快,也在向 AI 領域發力,逐步迭代,完成商業閉環后有望成為 AI 研發類企業。
就此,驛心也通過與 OEM 廠商的合作,提供了針對細分行業及整合核心行業應用的存算一體機方案。
寫在最后
開源和工程化的實現讓 DeepSeek 在 AGI 之路上往前邁進了一步,同時,也揭示了中美兩國在 AGI 軟硬一體上的兩種不同思路:
美國的 AGI 在 Infra 上追求平臺化發展,而中國的 AGI 如 DeepSeek 更強調通過算法驅動的軟硬一體優化來降低底層Infra 成本與提高效率。
驛心也是如此——在海外市場聯合 HammerSpace 提供的存儲方案更為水平化,而驛心則針對國內市場給出了更加垂直的一體化方案。吳文昊認為,正如 DeepSeek 從模型往下軟硬一體整體優化的方法論所展示的巨大市場影響力,整個AI Infra的軟硬一體優化與整合同樣會存在諸多市場空間。
對此,驛心和 DeepSeek 的做法有什么異同點呢?
驛心創始人吳文昊告訴 AI 科技評論,“Necessity is the mother of invention。對于 LLM 這樣的超級單一應用,對數據使用的 pattern 趨于簡化統一,更易于針對這些 pattern 做優化?!?/p>
他認為,“從存儲到網絡往 GPU 里面傳輸數據的能力在 LLM 時代才是關鍵。因此,我們的 AI Infra 能力聚焦在存儲與模型層面。”
再次,在存儲層面,針對大模型訓練和推理,通過 Tier-0 方案直接整合 GPU 服務器內部的存儲空間。如無必要,勿增實體,這樣直接整合不僅解決成本,機房空間,能耗等核心瓶頸問題,而且極大提升存儲性能與數據帶寬。
在模型優化層面,針對類似于 DeepSeek 這樣的主流模型,驛心結合算力、網絡、分布式 KV Cache 等能力,提高LLM集群的吞吐,同時通過可靠的 Tier-0/Tier-1 存儲方案保證模型與數據的可靠性,同時支持模型的后訓練與推理加速。
當前,驛心最新一輪融資即將 Close。之后在多模態和端側方面,驛心將尋求更多突破:“未來 AI Infra 特別是 AI 存儲將會迎來巨大增長,因為多模態的數據量較之語言模型要大幾十上百倍?!眳俏年桓嬖V AI 科技評論。
另外,“端側 AI 也需要經過兩三個周期才能達到如今語言模型的水平,所以未來在端側,數據生成、合成、存儲使用也存在許多值得關注的問題,這當中也蘊藏著新的機遇?!?/p>
總得來講,中國 AI 行業整體邁向 AGI,不僅需要算法人員的創新,也需要更多像驛心一樣有實力的 Infra 創業團隊加入。如此,整個行業才能攜手定義下一代 AI Infra 的發展,這才是核心關鍵點所在。雷峰網雷峰網(公眾號:雷峰網)
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。