0
| 本文作者: 楊依婷 | 2025-12-18 14:29 |
2025年12月12-13日,第八屆GAIR全球人工智能與機器人大會在深圳·博林天瑞喜來登酒店正式啟幕。
作為AI 產學研投界的標桿盛會,GAIR自2016年創辦以來,始終堅守“傳承+創新”內核,始終致力于連接技術前沿與產業實踐。
在人工智能逐步成為國家競爭核心變量的當下,算力正以前所未有的速度重塑技術路徑與產業結構。13日舉辦的「AI 算力新十年」專場聚焦智能體系的底層核心——算力,從架構演進、生態構建到產業化落地展開系統討論,試圖為未來十年的中國AI產業,厘清關鍵變量與發展方向。
GAIR 2025「AI 算力新十年」專場上,清華大學深圳國際研究生院副教授王智發表了題為《工業機理 × 大模型:行業大模型的系統約束與可控推理的研究進展》的主題演講,系統闡述了他對工業大模型訓推和落地實踐的核心判斷。

當智能制造從自動化走向智能化,工業大模型被視為關鍵一躍,卻也直面著真實產線中數據稀缺、算力受限、成本敏感的三重挑戰。這不僅是一個算法問題,更是一個需要貫通學術前沿與產業實踐的復雜系統工程。
在此背景下,清華大學深圳國際研究院的王智教授與其聯合團隊,選擇了一條“從場景中來,到場景中去”的攻堅路徑。他們依托國家基金委重點項目,聯合深圳信息職業技術學院、匯川技術等合作伙伴,在過去一年里,將研究扎根于工業質檢、具身智能、程序生成等具體場景,試圖拆解并回應那些最實際的問題:如何用大模型升級傳統規則系統?如何讓機器自主理解并執行任務?如何在弱算力、弱網絡的工廠環境下,讓智能模型真正“跑起來”?
與單純追求模型規模的常見敘事不同,王智教授團隊的工作呈現出鮮明的“工程思維”與“成本意識”。他們的探索從底層的數據生成與表征優化出發,延伸至模型規劃、分布式訓練與推理加速的全鏈路,其目標并非打造一個萬能的“工業GPT”,而是構建一套能讓大模型技術適配工業嚴苛約束、實現低成本高效部署的方法論體系。
這背后,是一個更為深刻的議題:當通用人工智能的浪潮席卷而來,工業領域究竟需要怎樣的大模型?它的知識如何注入機理與約束?它的智能又如何與機器人、產線、網絡環境協同共生?王智教授的匯報,正是對這一議題的一次階段性答卷。
以下為王智教授演講精彩內容的精編整理,雷峰網(公眾號:雷峰網)作了不改變原意的編輯:
非常榮幸能在此與大家分享我們的研究工作。
我們團隊承擔了國家基金委的重點項目,此次匯報主要涵蓋項目啟動大半年來取得的研究進展。需要說明的是,今天所展示的成果,是我們與深圳信息職業技術學院、匯川技術聯合團隊共同完成的。同時,我們也基于此基礎,與普渡科技、越疆科技合作開展了深圳市重點研發計劃項目的研究,相關內容也一并向各位匯報。
首先介紹項目背景。當前,智能制造正加速融入智能化元素,以工業大模型為代表的行業大模型已成為發展的必然趨勢,因此,針對智能制造行業大模型展開深入研究,顯得尤為迫切。

在本項目中,我們圍繞幾個關鍵方向開展了應用示范探索:其一,如何將傳統基于規則的小模型質檢方式,升級為大模型驅動的質檢;其二,開展工業具身智能研究,推動大模型與機器人深度融合;其三,進一步探索大模型在工業編程領域的應用——例如,能否讓大模型生成PLC程序,從而實現對整條產線的優化?這是我們項目初期確立的幾個重點問題。

傳統模型在具有明確工藝機理、且受成本制約的工業場景中,存在一定的缺陷。我們通過梳理發現,現有數據往往缺乏對工業機理、工業約束與成本約束的控制;同時,模型的訓練與推理也面臨算力與效率的雙重挑戰。這些不足,正是我們開展此項新研究的出發點。
接下來,我將以點線結合的方式,向大家匯報我們近一年來的研究進展及最新思考。我們主要針對三大挑戰展開攻關:一是行業應用中的數據短缺問題;二是工業模型重訓練與微調時算力網絡資源的不足;三是工業場景對推理效率的嚴苛要求。圍繞這些挑戰,我們在四個方向進行了布局:數據制備、模型規劃、分布式訓練以及推理加速,其中特別聚焦于以視覺語言模型(VLM)、視覺語言動作模型(VLA)為代表的具身模型的加速。

首先是工業跨場景數據的生成與融合。這里我主要以具身智能與工業場景結合為例。現有數據多通過遙操、工廠記錄等方式采集,成本高、局限性大,且難以嵌入背后的工業機理知識。
為此,我們提出了虛實融合的數據制備智能體框架,旨在實現低成本、高質量的合成數據生成。項目周期為三年,目前已完成約三分之一。
我們主要在以下三方面取得了進展:一是物理可靠場景的重建,經歷了從影視、聲音、網絡至3D高斯的進展;二是結構化場景的生成與編輯;三是探索利用大模型進行場景泛化與數據生成。相關工作已發表為論文,考慮到今天可能大部分觀眾來自產業界,在此選取部分內容展開說明。

我們首先探索了利用NeRF(神經輻射場)等隱式神經表征來刻畫工業場景所需的多模態數據。這類表征具有跨模態兼容性強的優點,能夠統一表達音頻、時序、3D及2D數據,但其缺點是速度慢,因此我們的工作重點圍繞加速展開,包括優化3D數據采樣方向、以及針對2D數據重點進行減枝與優化,從而顯著提升了隱式神經表征的效率。

然而,3D隱式神經表達的速度瓶頸依然突出。為此,在第二階段,我們將重心聚焦于可視化3D數據,并將研究范式從影視聲音表達過渡到3D高斯表征,但3D高斯模型體量較大,對大范圍場景進行表征和傳輸時,仍面臨存儲與帶寬的壓力。
我們在現有工作基礎上進行了拓展:當前研究大多集中于提升失真性能,卻難以在給定存儲大小限制下重建場景,我們重點解決了這一問題。
此項工作主要包含幾個部分:首先,通過測量分析,我們明確了3D高斯重建中與模型大小最相關的超參數及其影響關系,從而改變了傳統“先重建后優化”的范式,轉向在訓練中直接針對高敏感度參數進行優化。同時,我們在算子層面也進行了加速。圖中展示了我們的實驗效果,其核心優勢是能將模型壓縮到足夠小。
在當前一味追求重建質量的紅海競爭中,我們從延遲、帶寬與設備限制角度對3D高斯進行優化,這一思路獲得了ACM Multimedia評委會的認可,成為1500余篇投稿中入選最佳論文候選的6篇之一。
我們相信,這項技術不僅可用于預訓練數據制備,也將推動沉浸式多媒體體驗的發展,其核心挑戰依然是帶寬與質量之間的平衡。
前兩項工作主要關注數據的底層表征。在獲得表征后,還需將其編排成完整場景。為此,我們開發了基于大模型的結構化場景生成與編輯方法。
首先,我們嘗試將場景結構化為JSON或XML等格式,進而利用大模型進行編輯。當然,這不可避免地會產生“幻覺”問題。我們引入了一種力引導結構來消除違背常識的布局,例如防止沙發嵌入墻體或物體姿態不合理。經過優化,我們能生成既真實又多樣化的場景布局。
擁有了場景和物體資產后,下一步便與本次會議的主題緊密相連:我們能否制備出真正有用的數據?這是對我們已有多個模塊的綜合應用。核心問題很直接:能否不通過人工示教或遙操,就讓機器自主運動并完成任務?既讓語言類模型已經有了泛化能力,我們又可以相對比較真實、快速地生成數據,這是我們的初衷。
這個初衷想達到什么樣的效果?
我們拍攝一張實驗室真實場景的照片,不進行任何示教,就憑空仿真去生成一系列的這個行為記錄,用行為記錄數據對VLA模型進行微調,它能否工作?
我們測試了這一流程的可行性。結果表明,該流程充滿希望,盡管目前仍存在一些邊界案例。模型已能識別操作點并泛化出運動軌跡,但偶爾仍會出現不滿足物理約束或動作不合理的情況。
在實驗室環境下,這樣生成的示教數據已經具備實用價值。

例如圖示,完全無需人工示教,雖然生成的動作在重心平衡、操作點定位上存在偏差(如澆花時未考慮水杯滿溢狀態的重心變化),但模型成功率從零提升到了75%。我們甚至發現,遙操100條數據與我們自動生成1000條數據所能達到的效果是相近的。
這是我們在不同場景下的實驗結果。目前受限于實驗室本體與場景的規模,我們希望未來能對此框架進行更大范圍的擴展。我們已經部分解決了生成速度、任務泛化與場景編排的問題。展望未來,在不同本體協作的背景下,是否會產生新的有趣現象?我們也期待與各位同行深入交流。
在數據制備的最后部分,我們還探索了智能體級別、決策級別的數據制備。具體場景是:在具身智能研究中,多個智能體需協作完成任務,如何制備這類數據?我們搭建了一個仿真環境,讓多個智能體在同一3D場景中協作,并記錄其交互數據,作為未來訓練智能決策的基礎。
在此過程中,我們重點解決了智能體間的協作維護問題,設計了一種分布式信念結構,以實現高效通信。基于此,智能體能夠以盡可能少的通信量,協同完成打掃、收納、偵查、巡檢等任務。

第二部分,是針對工業機理約束的大模型設計。需要澄清的是,我們不是做基模的設計,而是研究如何利用大模型來編排策略、工具鏈及其他智能體。工業場景的核心約束之一是成本,這不僅指推理成本,更包括所串聯工具鏈本身的運行成本。為此,我們研究了融合拓撲約束與成本反饋的高效任務規劃方法。

這是我們的總體框架。傳統大模型調用工具也能完成任務,但其產生的動作序列成本可能較高,例如導致機械臂不必要的彎折或調用高算力算法。
為控制成本,我們進行了兩方面設計:一是將各類工具Token化,使其能被語言模型像處理詞匯一樣進行編排;二是將任務執行產生的成本消耗轉化為獎勵信號,通過強化學習過程來優化工具調用策略。
大家可能會問:將大模型用于娛樂對話尚可,但在視頻處理、工業控制等嚴肅場景,其成本與延遲是否可接受?為此,我們與字節跳動合作了一個項目,針對視頻服務場景,研究大模型在帶寬預測、碼率優化等任務中的實際效能。
基于真實數據的測試,我們發現了一些規律:
首先,大模型確實具備良好的泛化能力,能夠適應網絡領域的任務,我們對碼率自適應、任務調度、帶寬預測三類任務進行了驗證。其次,在網絡任務中,模型性能似乎存在某種“縮放定律”提前飽和的現象,未必需要特別大規模的模型。此外,我們提出了大模型路由機制:并非所有任務都需經過大模型處理,常規任務可直接由傳統規則或算法處理;只有當任務超出傳統算法能力范圍時,才路由至大模型,從而在某種程度上保證軟性的延遲上限。

第三部分,是關于弱算力、弱網絡環境下的分布式訓練。這部分研究起步稍晚,目前我們已完成流水線規劃和梯度壓縮方面的工作,目標是在算力網絡資源受限的條件下,更高效地利用資源對模型進行后訓練或微調,以適應不同場景需求。
這兩部分工作理論性較強。

我們改進了Top-k梯度壓縮方法,該方法雖能有效減少通信量,但在非獨立同分布數據場景下性能可能下降。我們提出了一種新的壓縮機制,使其在聯邦學習等場景下能達到與未壓縮相當的收斂性能。
無論模型是預訓練還是微調得來,最終都需在類工業或工業場景中快速部署。我們重點針對具身智能模型(如OpenVLA框架)進行加速優化。與通用語言模型相比,這類模型包含幾個顯著模塊:視覺感知、視覺語言理解(VLM)以及策略生成(通常基于擴散模型)。我們的工作可概括為對這三部分分別進行優化,手段包括參數量化、輸入量化、通道剪枝以及KV Cache優化。

首先,在視覺感知部分,其輸出數據受模型參數與輸入數據通道的共同影響,我們發現模型結構與輸入數據之間存在耦合關系。因此,我們提出了一種多維度聯合輕量化方法,針對感知模塊進行加速:對于某些數據,在數據層面進行剪枝對后續任務影響更小;而對于其他數據,則更適宜在模型層面進行過濾,這些特性能夠在我們框架中被自動學習。感知數據輸入后,需經VLM處理。我們對此也進行了優化,主要發現時間與空間維度可以聯合壓縮:在VLM感知階段,Token序列具有關聯性,不可隨意混排;同時,不同Token的重要性也不同。我們據此提出了時空聯合壓縮優化框架。
接下來是策略生成部分的擴散模型加速。
值得一提的是,在我們實驗室的測試中,前端的感知與VLM部分耗時約占3%,策略生成部分約占1%,但兩者均有加速空間。對于擴散模型,我們主要通過緩存機制,以存儲換計算。我們的特點是將KV Cache的粒度細化至“塊”級別,這雖然增加了緩存單元的數量,但也為優化提供了更細的指導。我們摸索出了“塊”在時序上的參考規律。
初步實驗表明,在算法相同的情況下,僅優化“塊”緩存策略就能帶來顯著的速度提升。
進一步地,我們不僅利用“塊”在時序上的參考性,還探索了同一transformer模塊內不同“塊”之間的空間參考性。我們發現,同一空間內的“塊”也具備相似性,可相互參考,從而進一步節省計算,我們還觀察到一個有趣現象:在動作生成過程中,只需參考后續的部分“塊”,而對前面序列的參考可以大幅減少。
下面簡要介紹我們在專項任務中開展的應用場景示范。
首先,針對智能產線機器人。我們融合示教數據與生產數據對模型進行微調,再結合前述加速技術,逐步解決單點問題,最終集成為復雜的工程系統,使其能在真實產線場景中可靠工作。
第二,針對質檢任務。我們利用大模型進行工具調用。在某些行業企業中,質檢部門已積累了成百上千個檢測工具,我們的方法能結合成本考量,智能調用這些現有工具鏈。
最后是總結與展望。
我們的工作是從通用大語言模型向工業大模型過渡的探索。我們發現,工業大模型在數據層面需要融合3D信息與物理約束,場景需多樣化;在訓練層面需適應弱網弱算環境;在訓練與推理層面,均受到效率與具體場景的嚴格限制。
我們承擔的重點專項隸屬于國家基金委工業互聯網方向。結合工業互聯網與邊緣網絡的發展趨勢,我們未來兩至三年的重點攻克方向包括:模型加速、語義通信、網絡自主化以及多智能體協同等。
以上是我今天的分享內容,涵蓋了我們團隊的開源項目進展及實驗室成果轉化情況。
謝謝大家。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。