0

當AI寫論文,做旅行攻略,作畫,寫詩能夠媲美甚至超越普通人水平時,有人興奮不已,也有人憂心忡忡。
普通人對于生成式AI可能帶來的變化態度各有不同,但推動這一技術發展的研究人員和企業都有一個共同關注的問題——大模型所需的大算力需求帶來的能耗問題如何解決?
以火爆全球的OpenAI公司的ChatGPT為例,兩年前,微軟為了滿足OpenAI的GPT-3模型訓練的算力需求,專門推出的超級計算機擁有28.5萬個CPU核心、1萬個 GPU。
巨量的CPU和GPU帶來的是高昂的芯片采購和運營成本。
國盛證券報告估算,GPT-3訓練一次的成本約為140 萬美元。要用ChatGPT服務用戶,以2023年1月的獨立訪客平均數1300萬計算,每日電費在5萬美元左右。
數據中心的能耗問題成了再一次擺在了云計算提供商面前的挑戰。為了解決這一問題,無論是微軟Azure、阿里云都早已讓數據中心的服務器用“泡澡”的方式來散熱,提升IDC的能源效率。
“我認為ChatGPT會加速液冷的發展,目前液冷幾乎已經成為一個潮流。”英特爾市場營銷集團副總裁、中國區數據中心銷售總經理兼中國區運營商銷售總經理莊秉翰在本周舉行的2023英特爾可持續發展高峰論壇期間表示。
ChatGPT助推,服務器「泡澡」要成主流
服務器“泡澡”是一種比喻,實際上代表的是服務器散熱液冷技術中的浸沒方式,液冷技術包含了冷板、噴淋、浸沒式,并非一個特別新的技術,但業界的使用率并不高。
“主要原因是國內許多冷板液冷設計缺乏一個規范的驗證標準,使得每個廠家設計都有差異,這使系統設計成本、驗證成本比較高,因此對于最終用戶而言這個方案就比較貴。”英特爾數據中心與人工智能集團副總裁兼中國區總經理陳葆立認為。
技術和標準之外,應用也是液冷技術沒有大規模部署的原因。
“高性能應用環節可能才需要液冷,但是大量的應用并不是那么高功耗的應用,而且在國家也提出‘雙碳’戰略之前,緊迫性和必要性沒有那么高。”寧暢總裁秦曉寧說,“現在的情況不一樣,CPU的功耗可能高達270W、300W,未來可能350W,GPU現在都400W、500W了,可能就必須應用液冷技術。”
更進一步,算力規模也是影響液冷技術大規模應用的關鍵。
“包括ChatGPT在內的應用帶來的算力快速發展,是促使大多數客戶快速從風冷技術轉向更節能的液冷技術的重要原因。”新華三集團計算存儲產品線副總裁劉宏程認為,“這不僅是可以節能多少的問題,還有空間浪費的問題。存量的數據中心當中無法容納新的能耗過高的設備。比如GPU服務器會導致空間的占用,以及提高數據中心的管理和運營費用。這促使更多中國客戶在快速考量更新數據中心整體設計時,轉向更節能、更先進的液冷數據中心的方式來解決能耗和平衡的問題。”
“當用戶需求激增→標準建立→規模效應體現→整體成本自然下降的循環形成之后,可以加速推動產業從傳統數據中心轉向新型節能的數據中心。”劉宏程進一步表示。
數據中心的能耗從來都是挑戰。信通院2022年發布的數據顯示,2021年底到2022年,全國已有近520萬個數據中心的基架進入部署,且過去五年的年均復合增長率達到30%。同時,全國數據中心的用電量已經達到了全國用電的2.6%,而且這個比例預估還會繼續增長。

面對能源的挑戰,政府指導單位也推出了一系列宏觀政策指導行業的發展,包括三個重點方向:規劃、能效、利用率。2022年6月工信部等六部門發布《工業能效提升行動計劃》中明確規定,到2025年,新建大型、超大型數據中心PUE優于1.3。
PUE(Power Usage Effectiveness)是用于衡量IDC能源效率的指標,是用IDC總能耗除以IT設備能耗得來。
數據中心不同的散熱技術直接影響PUE,采用風冷散熱的數據中心PUE能到1.4-1.5,如果使用液冷散熱,PUE可以做到近1.1。
破解液冷技術大規模應用的成本和標準挑戰
“整體而言,我們主要從三個部分探索數據中心的綠色低碳:第一部分,處理器產品;第二部分,服務器整體設計;第三部分,軟件與工具。”陳葆立指出。
要從處理器層級解決液冷的挑戰,主要是技術挑戰,對于強調創新的英特爾難度可控。今年1月發布的第四代英特爾至強可擴展處理器,在深層環節已經使用了90%的可再生電力。

服務器層面的挑戰就有技術和成本的挑戰。
“假設管道或液體突然泄漏,整個電子器件如果說有損耗怎么辦?這需要大量的驗證,這是為什么我們和很多業內領先伙伴,如寧暢、新華三,一起做了非常多的試驗。其實很多廠家也都提供了各種不同的方案,但是我們需要大規模驗證去證明這些應用在液冷中的液體可以真正的安全的使用,并且不影響整個作業和服務。”陳葆立表示。
技術的問題相對容易解決。劉宏程就提到,在最新的服務器里面,英特爾創新地推出英特爾電源匯流排技術(Power Corridor),通過限流板的方式,針對CPU底座進行設計,可以降低整個部件級的能耗。
相比之下,成本的挑戰更加巨大。使用液冷可能會帶來10-20%的成本增加。
“許多冷板產品各個廠商都可以支持,但標準不統一,甚至快插的接口大小、尺寸都不一樣。無論是從成本還是通用性角度,沒有統一規范,對于客戶是一件非常困擾的事情。因為每家服務器廠商的產品不同,有可能到了客戶的機房甚至都無法使用。”秦曉寧表示。

而推動成本降低的關鍵是標準。英特爾攜手20余位生態伙伴經過過去半年的努力,共同編纂的冷板液冷團體標準已于今年3月15日正式發布,英特爾希望通過標準化降低產業與技術門檻,推動冷板液冷技術的普及化,讓所有的用戶能夠更普惠的使用到這項最新技術。
雷峰網了解到,目前冷板的成本逐步下降,因為許多成本與量相關,冷板標準統一后,產量提升會帶來成本的下降。
“浸沒式液冷是一項難度系數更高的技術,我們也在研發上做出了一系列投入,目前英特爾正與國內領先伙伴就此進行聯合研發,我們希望能在今年下半年把相關經驗與設計規格通過白皮書分享給業界伙伴,加速浸沒式液冷解決方案落地。”陳葆立透露。
莊秉翰指出,“通過這些標準可以增大整個市場產業化進程,加速產業化可以降低成本,降低成本之后才能讓基于液冷的數據中心更加普及。”
“如果沒有形成規模,定制化的成本相對較高。”劉宏程認為,“由英特爾帶動把液冷所有標準建立之后,產業鏈所有的供應商將用統一標準來實現互連、互操作,這能夠極大降低采購成本以及在未來數據中心的運維成本,讓整體液冷技術在數據中心更容易落地。”
目前,國內幾個服務器使用的頭部行業,如互聯網、運營商、金融行業等,對液冷都已經跳過了POC階段,進入到了規模化采用的狀態。
仍需強調的一點是,液冷會在數據中心大規模應用,但并非所有數據中心都一定要用液冷。
“未來新的至強處理器可能會升級到擁有100個能效核,CPU的電源功率可能還是300W或350W。所以理論上來看,它在風冷上也可以應用。”陳葆立指出。
對于存量的數據中心市場,同樣也有提升能源效率的方式。

“近期我們把綠色數據中心技術框架升級到2.0版本,擁有高能效與高功率密度、先進散熱技術、基礎設施智能化和材料&可循環設計四個垂直領域,以及XPU、服務器、機架、數據中心四個水平方向的共13種關于節能減碳的方案。”陳葆立表示,“英特爾智慧節能解決方案基于模塊化的軟件設計理念,可通過軟件和AI模型進行預測和干預,進而提升整體運行能效。”
據悉,英特爾和一家運營商在20個省的總共420多個機房里,通過智能節能方案把存量數據中心的PUE從1.49降到1.38,獲得了可觀的成本節省。
正如英特爾公司首席執行官帕特·基辛格在2023英特爾可持續發展高峰論壇上所說,“科技是實現綠色經濟的唯一途徑,但我們在發展數字技術的過程中也消耗著更多的能源。因此,我們的責任與機會并存,共同創造一個可持續計算的未來,責無旁貸。”雷峰網(公眾號:雷峰網)
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。