<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      芯片 正文
      發(fā)私信給吳優(yōu)
      發(fā)送

      0

      ?被帶寬限制的AI性能,在HBM2和GDDR6上“重生”

      本文作者: 吳優(yōu) 2020-12-16 14:02
      導語:在目前廣泛應用于AI的內(nèi)存方案中,包括片上存儲、HBM和GDDR。

      人工智能經(jīng)過幾十年的發(fā)展,在數(shù)據(jù)爆炸時代正處于良性循環(huán),大量的數(shù)據(jù)用于制造和訓練神經(jīng)網(wǎng)絡,而后利用神經(jīng)網(wǎng)絡篩選并理解這些數(shù)據(jù)。

      不過,我們?nèi)匀粚τ诟玫娜斯ぶ悄苡芯薮笮枨螅瑩?jù)Open AI的一份報告顯示,從2012到2019年,人工智能訓練集增長將近30萬倍,每3.43個月翻一番,比摩爾定律快25000倍,在摩爾定律將近失效的今天,那么怎么樣才能讓人工智能提供更好的性能?

      ?被帶寬限制的AI性能,在HBM2和GDDR6上“重生”

      內(nèi)存帶寬限制人工智能模型本身

      早在兩年前,業(yè)內(nèi)就有人提出,在計算能力和數(shù)據(jù)量足夠的年代里,內(nèi)存帶寬才是人工智能發(fā)展的瓶頸。

      德克薩斯高級計算中心(TACC)研究科學家曾在其2016年的報告《HPC系統(tǒng)中的內(nèi)存帶寬和系統(tǒng)平衡》中比較過去25年某些HPC服務器的浮點計算情況,結(jié)果顯示內(nèi)存、網(wǎng)絡延遲和帶寬大幅度落后于處理器性能,其中內(nèi)存帶寬大約每十年落后浮點計算4.5倍。

                                                    ?被帶寬限制的AI性能,在HBM2和GDDR6上“重生”

       “一個非常有趣的現(xiàn)象是,內(nèi)存對人工智能的限制一部分體現(xiàn)在人工智能模型本身,以及用來訓練這些模型的數(shù)據(jù)量規(guī)模急劇增長。”Rambus 大中華區(qū)總經(jīng)理蘇雷在Rambus 2020中國設計峰會上說到。

      根據(jù)蘇雷的介紹,這種限制在人工智能傳統(tǒng)訓練模型和并行訓練模型上均有體現(xiàn)。

      傳統(tǒng)神經(jīng)網(wǎng)絡訓練通常只使用一個AI/ML引擎,即將神經(jīng)網(wǎng)絡模型和訓練數(shù)據(jù)全都嵌入一顆芯片中,訓練的數(shù)據(jù)在芯片中迭代循環(huán),通過不斷更新模型實現(xiàn)對數(shù)據(jù)的分類、識別和處理,這一場景下其性能直接取決于計算引擎和緩存速度、內(nèi)存帶寬。

      ?被帶寬限制的AI性能,在HBM2和GDDR6上“重生”

      為提高數(shù)據(jù)訓練時間,具體多個AI/ML引擎的神經(jīng)網(wǎng)絡得以出現(xiàn),這種方法是神經(jīng)網(wǎng)絡模型的完整副本同時嵌入多個芯片中,神經(jīng)網(wǎng)絡模型所需的訓練工作量被均分到每一顆芯片中,多個芯片引擎并行處理訓練集,進而提高訓練時間。

      ?被帶寬限制的AI性能,在HBM2和GDDR6上“重生”

      并行方案的每一個訓練步驟可分為兩個階段,每個階段受到的帶寬限制不盡相同。

      在第一階段,每個訓練的并行引擎將通過它們的訓練結(jié)果更新其模型副本,因此并行訓練的每個芯片在運行完每一次訓練迭代后,都會有不同的訓練更新,因此這一階段數(shù)據(jù)傳輸?shù)叫酒乃俣戎苯尤Q于內(nèi)存帶寬的大小。

      在第二階段,即規(guī)約階段(Reduction),需要每個引擎與所有其它引擎交互更新信息,讓芯片彼此了解其它芯片的更新并接受來著其他芯片的更新,得以更新自己的模型,恢復模型間的同步,再次擁有相同的模型副本。顯然,這一階段的性能主要取決于芯片間鏈路帶寬的限制。

      HBM 2和GDDR 6,更多的內(nèi)存選擇

      “為縮小內(nèi)存帶寬和高性能浮點計算之間的差距等問題,我們有新的系統(tǒng)架構(gòu)和面向特定領域的硅,或者將更多的數(shù)據(jù)直接放在芯片上,以獲得更高的帶寬,更好的功率和更低的延遲,但是數(shù)據(jù)總是越來越大,需要更多的內(nèi)存,所以依然需要在片外存儲器和鏈路性能上取得突破。”Raymond Su表示。

      在目前廣泛應用于AI的內(nèi)存方案中,片上存儲(On-Chip Memory)就是Raymond Su所言的擁有最高帶寬和功率效率但容量有限的方案,其他兩種方案分別是HBM和GDDR,即DRAM解決方案。

      ?被帶寬限制的AI性能,在HBM2和GDDR6上“重生”

      HBM是一種基于3D堆棧工藝的高性能DRAM。第一代HBM誕生于2013年,最新一代HBM標準已經(jīng)演進到HBM2E,能夠支持12個DRAM的堆棧,內(nèi)存容量高達每堆棧24GB,當傳輸速率達到每管腳3.6Gbps時,HBM2E可以實現(xiàn)每堆棧461GB/s的內(nèi)存帶寬。

      由于HBM2E堆棧需要通過高達1700多條數(shù)據(jù)“線”的接口連接到相關處理器,遠遠超過標準PCB能夠支持的范圍,因此使用硅中介層作為連接內(nèi)存堆棧和處理器的中介,在硅中介層中完成精細的數(shù)據(jù)走線,獲得HBM接口所需數(shù)量的數(shù)據(jù)線數(shù)。

      HBM2E通過堆疊技術實現(xiàn)高帶寬和高容量,但由于硅中介層的使用,成本偏高。

      GDDR是雙倍數(shù)據(jù)傳輸率存儲器,采用傳統(tǒng)的方法將標準PCB和測試的DRAMs與SoC連接在一起,具有較高的帶寬和較好的能耗效率,其缺點在于更難保證信號完整性和電源完整性。

      ?被帶寬限制的AI性能,在HBM2和GDDR6上“重生”

      比較256GB/s下HBM2和GDDR6,HBM2E的接口寬而慢,GDDR6的接口窄而快。HBM2占有面積優(yōu)勢和能耗優(yōu)勢,但GDDR6具有成本和方案工程上的實現(xiàn)優(yōu)勢。

      HBM2與GDDR6內(nèi)存解決方案的高帶寬已經(jīng)顯而易見,不過想要真正落實到實現(xiàn)高性能人工智能的應用上,還需要IP供應商的支持,在HBM2和GDDR6內(nèi)存解決方案的IP供應中,Rambus就扮演重要角色。

      根據(jù)Rambus資深應用工程師曹汪洋在Rambus 2020中國設計峰會上的介紹,Rambus的HMB2E接口解決方案(PHY和控制器)專為AI/ML、HPC的高性能和低延遲而設計。Rambus HBM Gen2 PHY 完全符合JEDEC HBM2E標準,支持每個數(shù)據(jù)引腳高達3.6Gbps 的數(shù)據(jù)速率,總帶寬因此達到461 GB/s。該接口具有8個獨立信道,每個信道包含128位,總數(shù)據(jù)寬度為 1024 位,支持2、4、8 或 12個DRAM的堆棧高度。

      Rambus GDDR6 PHY每個引腳的速度高達16 Gbps,可用于TSMC 7nm工藝,GDDR6接口支持2個信道,每個信道有16位,總數(shù)據(jù)寬度為32位。另外,Rambus GDDR6 PHY 每個引腳的速度高達16 Gbps,最高可提供 64 GB/s 的帶寬。

      在Rambus 2020中國設計峰會的交流環(huán)節(jié),蘇雷向雷鋒網(wǎng)表示:“Rambus 是全球HBM IP技術的引領者,且在市場份額上排名第一,全球范圍內(nèi)擁有50多個成功案例,Rambus最新的Rambus HBM2E的方案可以實現(xiàn)全球最高的4Gpbs速率,GDDR6方案可以實現(xiàn)18Gbps速率,位于業(yè)界頂尖水平,這能夠幫助客戶的方案設計提供足夠裕量空間,保證整個系統(tǒng)的穩(wěn)定性,目前燧原已將選擇了Rambus作為其下一代AI訓練芯片的合作伙伴。”

      高帶寬之后,信號完整性也是挑戰(zhàn)

      在上述文章中提到,HBM和GDDR是可以為AI/ML提供高帶寬,其中速率更高的GDDR6面臨著信號完整性和電源完整性的挑戰(zhàn)。

      據(jù)雷鋒網(wǎng)了解,信道中不同類型的損耗是影響信號完整性的主要因素,具體又可以分為插入損耗、反射和串擾,插入損耗產(chǎn)于介電損耗或金屬電阻表面粗糙程度,主要通過較好的PCB和封裝設計來控制。信號反射源于阻抗,最終會導致眼圖閉合和信號丟失。串擾由于兩個信號之間的電容和電感耦合引起的,由于從信號中消除串擾的電路很復雜,因此串擾是GDDR6 DRAM信號完整性最具挑戰(zhàn)性的問題。

      針對信號完整性問題,蘇雷表示:“要確保信號的完整性,就需要從發(fā)送端到接收端進行的完整系統(tǒng)建模,需要采用協(xié)同設計的方案。Rambus 的GDDR6 PHY解決方案可以穩(wěn)定在18Gbps并確保傳輸眼圖清晰,走在業(yè)界最前列。在高速的傳輸下,還需要對電路板上的封裝設計進行建模,使用比如DFE和反轉(zhuǎn)等技術,可以提高性能讓眼圖更好的打開 。”

      當然除了信號完整性和電源完成性,DRAM數(shù)據(jù)速率的增長還導致更多其他的問題,“我們需要做的還是兼顧能耗的制約,不斷找尋和提升內(nèi)存帶寬的方法,為AI/ML更高的性能。”蘇雷說道。

      文中圖片源自Rambus官方

      雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)


      相關文章:

      2020年最值得關注的10家國外AI芯片初創(chuàng)公司

      全球最大的AI芯片比領先的GPU快1萬倍

      雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

      分享:
      相關文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 苗栗县| 精品国产一区二区三区香蕉| 亚洲欧美制服| 久久9199| 国产成人午夜精华液| 337p西西人体大胆瓣开下部| 66久久| 精品国产美女福到在线不卡| 尹人97| 保山市| 欧美日韩精品一区二区三区高清视频| 类乌齐县| 国产一区二区av天堂热| 中国凸偷窥XXXX自由视频| 国产农村乱子伦精品视频| 色九九视频| 老熟妇仑乱视频一区二区| 91国产精品| 色亚洲成人| 三年中文在线观看免费大全| 国产人妻人伦精品一区二区| 欧美另类高清zo欧美| 野花在线观看免费观看高清| 中文字幕久久精品波多野结| 国产免费网站看v片元遮挡| 日韩丨亚洲丨制服|痴汉| 久久久久人妻精品一区三寸| 成人国产精品中文字幕| 淳化县| 亚洲国产精品一区二区久久hs| 日韩秘 无码一区二区三区| 国产精品七七在线播放| 久久综合久久综合九色| 天天躁日日躁狠狠躁av中文| 亚洲国产高清第一第二区| 91丝袜在线| 亚洲熟女少妇av一区| 丰满少妇a级黄片在线免费观看| 国产麻豆9l精品三级站| 国产精品无码一本二本三本色| 日韩av无码精品人妻系列|