<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能學術 正文
      發(fā)私信給鄭佳美
      發(fā)送

      0

      計算所嚴明玉團隊新作: Attention 并非永遠是瓶頸,多 GPU 并不一定更快

      本文作者: 鄭佳美   2025-12-22 10:56
      導語:系統(tǒng)實驗表明,模型推理分為計算受限的 Prefill 與內存受限的 Decode。

      隨著大語言模型逐漸走向真實應用,推理階段的性能問題正在成為制約落地的關鍵因素。

      模型規(guī)模不斷增大、上下文持續(xù)拉長,再加上 RAG、MoE 等新用法的引入,使得延遲、吞吐和能耗不再只是“調一調參數(shù)”的問題,而是直接影響系統(tǒng)架構和算力成本的核心挑戰(zhàn)。

      圍繞這些問題,來自中國科學院計算所的嚴明玉團隊,聯(lián)合中國電信云計算研究院、浙江實驗室和北京大學的研究者,在論文《A Systematic Characterization of LLM Inference on GPUs》中,對大語言模型在 GPU 上的推理行為進行了系統(tǒng)研究。

      不同于以往側重單一模型、單一算子或局部優(yōu)化的研究路徑,嚴明玉團隊從系統(tǒng)和硬件協(xié)同的視角出發(fā),通過大規(guī)模實驗,對大語言模型在 GPU 上的推理行為進行了全面刻畫,試圖從根本上回答一個長期困擾工程實踐的問題:大模型推理為什么會呈現(xiàn)出現(xiàn)在這樣的性能特征。

      這項工作并沒有直接給出如何優(yōu)化的現(xiàn)成答案,而是首先建立了一套統(tǒng)一、可解釋的性能認知框架,將 Prefill 與 Decode 的差異上升為系統(tǒng)級的基本規(guī)律,并在不同模型規(guī)模、不同硬件平臺以及 MoE、RAG 等新型推理范式下進行了驗證。

      在這一框架下,推理延遲、資源利用率和能耗不再是孤立的指標,而是隨著工作負載和系統(tǒng)配置發(fā)生有規(guī)律的變化。這種從現(xiàn)象出發(fā)、最終回到系統(tǒng)根因的研究方式,使得這項工作更像是在為大模型推理建立一張可理解、可推演的性能全景圖,而不是提供某個場景下的經(jīng)驗結論。

      計算所嚴明玉團隊新作: Attention 并非永遠是瓶頸,多 GPU 并不一定更快

      論文鏈接:https://arxiv.org/pdf/2512.01644v1

      一次對大模型推理性能的系統(tǒng)性拆解

      嚴明玉團隊的這項工作通過大量有組織的實驗,系統(tǒng)地總結了大語言模型在推理階段的性能規(guī)律,而不是停留在零散的經(jīng)驗觀察上。研究團隊發(fā)現(xiàn),LLM 的推理過程在本質上可以分成兩個完全不同的階段,而且這種差異并不是靠優(yōu)化就能消除的。

      計算所嚴明玉團隊新作: Attention 并非永遠是瓶頸,多 GPU 并不一定更快

      具體來說,第一個階段是 Prefill 階段,主要任務是一次性處理用戶輸入的 prompt。這個階段可以并行執(zhí)行,核心計算是大規(guī)模矩陣乘法,因此計算量大、算得很滿,GPU 的計算單元利用率很高,整體性能主要受限于算力本身。

      計算所嚴明玉團隊新作: Attention 并非永遠是瓶頸,多 GPU 并不一定更快

      第二個階段是 Decode 階段,用來逐個生成輸出 token。由于生成過程是一步一步進行的,每一步都需要訪問已經(jīng)緩存的上下文信息(KV Cache),實際計算量不大,但內存訪問非常頻繁,因此性能瓶頸從算力轉移到了內存帶寬和訪問延遲上。

      計算所嚴明玉團隊新作: Attention 并非永遠是瓶頸,多 GPU 并不一定更快

      在此基礎上,論文進一步指出,推理過程中到底是 Prefill 慢還是 Decode 慢,并不是固定的,而是取決于具體的輸入和輸出情況。當輸入較短時,雖然每一步 Decode 的計算不多,但需要執(zhí)行很多步,因此 Decode 往往成為主要耗時部分。

      而當輸入變長時,Prefill 階段需要處理的 token 數(shù)迅速增加,其計算量增長更快,在超過某個長度之后就會反過來成為整體延遲的主要來源。這種從 Decode 主導到 Prefill 主導的轉變說明,性能瓶頸更多是由工作負載決定的,而不是模型本身天生慢在哪。

      計算所嚴明玉團隊新作: Attention 并非永遠是瓶頸,多 GPU 并不一定更快

      如果進一步拆到模型內部的算子層面,研究團隊發(fā)現(xiàn)瓶頸同樣不是固定的。在常見的上下文長度下,Prefill 階段的主要時間往往花在前饋網(wǎng)絡(FFN)上,但在上下文特別長的情況下,由于注意力計算的復雜度增長更快,Attention 會逐漸成為主要瓶頸。

      計算所嚴明玉團隊新作: Attention 并非永遠是瓶頸,多 GPU 并不一定更快

      Decode 階段的情況則和模型規(guī)模有關:對于較小的模型,頻繁訪問 KV Cache 的 Attention 更容易成為瓶頸;而對于大模型,由于前饋網(wǎng)絡權重更大,F(xiàn)FN 的內存加載成本反而更突出。這說明,單純地說 Attention 是瓶頸或 FFN 是瓶頸都是不準確的,必須結合所處階段、上下文長度和模型規(guī)模來判斷。雷峰網(wǎng)(公眾號:雷峰網(wǎng))

      計算所嚴明玉團隊新作: Attention 并非永遠是瓶頸,多 GPU 并不一定更快

      在性能可預測性方面,論文發(fā)現(xiàn) Prefill 階段的行為非常規(guī)律。它的執(zhí)行時間幾乎只由真正需要計算的輸入 token 數(shù)量決定,而且二者之間呈現(xiàn)非常穩(wěn)定的線性關系。這意味著,只要知道輸入長度和緩存命中情況,就可以比較準確地預測 Prefill 的延遲,這對系統(tǒng)調度和資源規(guī)劃非常有用。相比之下,Decode 階段由于是逐步生成,并且受到采樣和串行依賴的影響,性能波動更大,也更難提前預測。

      計算所嚴明玉團隊新作: Attention 并非永遠是瓶頸,多 GPU 并不一定更快

      在能耗分析中,論文給出了一個非常直觀但重要的結論:整個推理過程消耗的能量,幾乎全部來自 Decode 階段。輸入有多長,對總能耗影響很小,而輸出生成了多少 token,幾乎直接決定了能耗大小。同時,模型參數(shù)越多,總能耗也會隨之增加。這說明,在真實系統(tǒng)中,如果想要降低推理能耗,限制輸出長度往往比優(yōu)化 Prefill 更有效。

      計算所嚴明玉團隊新作: Attention 并非永遠是瓶頸,多 GPU 并不一定更快

      在多 GPU 擴展實驗中,研究團隊發(fā)現(xiàn)并行化并不是在所有情況下都有效。Prefill 階段由于計算量大,把計算分攤到多張 GPU 上通常能帶來收益,但 Decode 階段每一步計算都很小,多 GPU 之間的通信和同步反而會成為負擔,導致性能提升不明顯甚至變慢。因此,在 Decode 為主的場景下,使用單 GPU 或較輕量的流水并行往往更合適,這也打破了GPU 越多越快的直覺。

      計算所嚴明玉團隊新作: Attention 并非永遠是瓶頸,多 GPU 并不一定更快

      最后,論文還分析了新的推理范式。對于 MoE 模型,推理速度主要取決于每次實際參與計算的參數(shù)規(guī)模,而不是模型的總參數(shù)量,這帶來了明顯的性能優(yōu)勢,但同時,在 Decode 階段會額外引入專家選擇和調度的開銷,使性能表現(xiàn)更加復雜。

      計算所嚴明玉團隊新作: Attention 并非永遠是瓶頸,多 GPU 并不一定更快

      對于 RAG 工作流,研究團隊發(fā)現(xiàn)隨著外部知識規(guī)模變大,系統(tǒng)瓶頸會從 GPU 推理轉移到 CPU 側的檢索和內存訪問上,形成新的性能限制。盡管推理流程變得更加復雜,但 Prefill 和 Decode 在性能上的根本差異依然存在,仍然是理解整體行為的關鍵。

      計算所嚴明玉團隊新作: Attention 并非永遠是瓶頸,多 GPU 并不一定更快

      面向系統(tǒng)理解的大模型推理實驗框架

      為了讓結論更完整、也更容易理解,這篇論文在實驗設計上采用了一種由淺入深的分析思路。研究團隊并不是一開始就研究底層硬件細節(jié),而是先觀察整體推理性能表現(xiàn),再逐步深入到 GPU 的執(zhí)行和存儲行為,最后把得到的規(guī)律放回到真實系統(tǒng)和新型推理場景中進行驗證。雷峰網(wǎng)

      在實驗平臺方面,論文同時使用了數(shù)據(jù)中心級的 GPU(A100)和邊緣設備上的 GPU(Jetson AGX Orin)。這樣做的目的,是檢驗前面總結出的性能規(guī)律是否只在高端服務器上成立,還是在算力和內存條件更受限的設備上同樣適用。

      計算所嚴明玉團隊新作: Attention 并非永遠是瓶頸,多 GPU 并不一定更快

      模型選擇上,研究團隊覆蓋了多種主流的 dense 模型(從 7B 到 32B),同時還引入了一個具有代表性的 MoE 模型,以觀察不同參數(shù)規(guī)模和不同架構設計對推理性能的影響。為了保證對比公平,所有實驗都在同一套推理框架和相同精度設置下進行,盡量減少實現(xiàn)細節(jié)帶來的干擾。

      計算所嚴明玉團隊新作: Attention 并非永遠是瓶頸,多 GPU 并不一定更快

      在工作負載設計上,研究團隊并沒有簡單地跑幾組固定 benchmark,而是有針對性地設計了多種輸入和輸出組合。例如,有的任務輸入短、輸出長,有的輸入長、輸出短,還有真實對話數(shù)據(jù)和可控的合成數(shù)據(jù)。這樣的設計是為了有意識地制造 Prefill 占主導或 Decode 占主導的不同場景,從而驗證兩階段在不同條件下是否始終表現(xiàn)出不同的性能特征。

      計算所嚴明玉團隊新作: Attention 并非永遠是瓶頸,多 GPU 并不一定更快

      在性能分析方法上,論文采用了分層剖析的方式。首先在整體層面上,測量端到端的延遲、吞吐量和能耗,建立對系統(tǒng)行為的直觀認識;接著在階段和算子層面,分析 Prefill 和 Decode 各自占用了多少時間,以及不同算子在其中的作用;最后深入到硬件層面,通過 Roofline 模型、warp 停頓分析,以及緩存命中率和內存帶寬使用情況,來判斷性能究竟是受限于計算還是受限于內存。

      計算所嚴明玉團隊新作: Attention 并非永遠是瓶頸,多 GPU 并不一定更快

      在能耗分析中,研究人員通過高頻功率采樣并扣除空閑功耗的方式,盡量保證測量結果的準確性。在涉及 RAG 的實驗中,還額外使用了 CPU 側的性能分析工具,專門分析檢索階段的瓶頸來源。

      通過這種從“看現(xiàn)象”到“找原因”的逐步分析過程,論文避免了只憑經(jīng)驗判斷或簡單相關性分析下結論的問題,使得每一個宏觀層面的性能現(xiàn)象,都能在底層硬件執(zhí)行機制上找到清晰的解釋。

      當問題被看清,優(yōu)化才有方向

      這篇論文的意義不在于提出某一種新的優(yōu)化技巧,而在于建立了一套統(tǒng)一、可解釋的大模型推理性能認知框架。它首次將 Prefill 與 Decode 的階段差異提升為系統(tǒng)級基本規(guī)律,并證明這一規(guī)律在不同模型規(guī)模、硬件平臺和新興推理范式下均成立。

      從工程角度看,論文糾正了多個長期存在的直覺性誤解,例如Attention 永遠是瓶頸、多 GPU 一定更快、Prefill 是主要能耗來源等,并給出了明確的反例和機制解釋。這些結論對實際推理服務的部署策略、資源配置和成本控制具有直接指導意義。

      從系統(tǒng)研究角度看,這篇內容為后續(xù)工作提供了清晰的問題分解方式:優(yōu)化 Prefill 和優(yōu)化 Decode 不應混為一談,而應針對各自的根本瓶頸分別設計機制。這一思想對調度器設計、并行策略選擇以及新硬件特性利用都具有啟發(fā)作用。

      從未來發(fā)展看,論文指出了 MoE 和 RAG 等新范式如何重塑瓶頸位置,提示研究者在模型和系統(tǒng)協(xié)同設計時需要關注路由開銷、內存局部性和 CPU–GPU 協(xié)同,而不僅僅是算力規(guī)模。

      總體而言,這是一篇以實驗為基礎、以解釋為核心、以系統(tǒng)認知為目標的論文,其價值在于回答了“為什么 LLM 推理會這樣表現(xiàn)”,而不僅是“如何讓它更快一點”。

      工作背后的研究者

      本文通訊作者為 中國科學院計算技術研究所的嚴明玉教授。他主要從事計算機體系結構相關研究,研究方向涵蓋圖機器學習、設計空間探索以及復雜計算系統(tǒng)的性能分析等問題。

      計算所嚴明玉團隊新作: Attention 并非永遠是瓶頸,多 GPU 并不一定更快

      參考鏈接:https://mingyuyan-ict.github.io/MingyuYan-ICT/

      在學術研究方面,嚴明玉教授已在多個國際頂級會議和期刊上發(fā)表近 20 篇論文,相關成果發(fā)表于 MICRO、HPCA、DAC、ICCAD、IJCAI、IEEE TC、IEEE TPDS 等重要學術平臺,覆蓋體系結構、系統(tǒng)與應用交叉等多個研究領域。

      除科研工作外,嚴明玉教授也是 IEEE 和中國計算機學會(CCF)的高級會員,并多次擔任 HPCA、ISCA、MICRO、IJCAI、ISPASS 等國際會議的技術程序委員會委員或審稿人,長期參與相關領域的學術評審與社區(qū)建設。

      在學術培養(yǎng)與科研經(jīng)歷方面,他于中國科學院大學獲得博士學位,并曾赴美國加州大學圣塔芭芭拉分校進行聯(lián)合培養(yǎng)。其博士論文曾獲得中國計算機學會優(yōu)秀博士論文獎。此外,他還入選北京市科技新星計劃、中國科學院青年創(chuàng)新促進會,并主持或參與中國科學院青年團隊項目等科研計劃。

      總體而言,嚴明玉教授長期致力于從系統(tǒng)視角理解復雜計算負載在硬件平臺上的執(zhí)行行為,強調通過系統(tǒng)性實驗和硬件行為分析揭示性能瓶頸的形成機理,其研究成果兼具理論深度與工程實踐價值。

      雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

      計算所嚴明玉團隊新作: Attention 并非永遠是瓶頸,多 GPU 并不一定更快

      分享:
      相關文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 3344在线观看无码| 久久精品国产亚洲av麻豆不卡 | 久久精品人人做人人爽97| 久久婷婷久久一区二区三区| 中文字幕无码人妻aaa片| 亚洲精品一二三四区| 东京热无码大乱AV| 日韩码无第15页| 嵩明县| 亚洲天堂日韩av电影| 亚洲一区二区三区免费av在线| 天堂色综合| 国产亚洲精品美女久久久久| 婷婷伊人綜合中文字幕| 亚洲中文字幕在线观看| 久久精品亚洲| 浠水县| 国产欧美性成人精品午夜| 国产成人精品亚洲精品色欲| 欧美性猛交ⅹxxx乱大交妖精 | 大香蕉在线视频99| 欧美a在线| 临潭县| 无码专区—va亚洲v天堂| 好姑娘7免费高清观看| 天堂中文在线资源| 日韩人妻精品一区二区三区视频| 国产女人18毛片水真多1| 制服丝袜无码在线| 狠狠做久久深爱婷婷| 精品99re66一区三区| 亚洲SV日韩无码久久| 日韩人妻无码精品久久| 极品少妇被后入内射视| 永久免费看mv网站入口| 波多野结衣无内裤护士| 野花香高清在线观看视频播放免费| 精品人妻无码中文字幕| 国产真人性做爰久久网站| 精品网站999www| 老司机夜间福利|