<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      AI+ 正文
      發私信給二維馬曉寧
      發送

      0

      彩云小夢V3.5上線 彩云科技推出首個基于DCFormer架構通用大模型

      本文作者: 二維馬曉寧   2024-11-14 16:36
      導語:彩云科技旗下AI RPG平臺彩云小夢,也成為首款基于DCFormer架構開發的AI產品。

      彩云小夢V3.5上線 彩云科技推出首個基于DCFormer架構通用大模型

      雷峰網(公眾號:雷峰網)訊 11月13日,彩云科技在北京總部與媒體進行一場主題為“From Paper to App”的溝通會。會上,彩云科技CEO袁行遠,就通用大模型未來進化之路,與人工智能的落地場景等熱點話題進行了交流,并正式推出了首款基于DCFormer架構開發的通用大模型云錦天章,與此同時,彩云科技旗下AI RPG平臺彩云小夢,也成為首款基于DCFormer架構開發的AI產品。

      在公眾認知中,Transformer架構作為神經網絡學習中最重要的架構,成為后來席卷全球的一系列通用大模型如ChatGPT、Gemini的底層技術支撐。而提升Transformer的運行效率也成為人工智能領域的研究熱點,2024年4月,谷歌最近一次更新了Transformer架構,提出了Mixture-of-Depths(MoD)方法,使得訓練后采樣過程中提速50%,成為Transformer架構提速升級的又一重要事件。 

      今年,國內的人工智能企業彩云科技,在國際機器學習領域的頂級會議ICML(國際機器學習大會)上,發布全新大模型論文《Improving Transformers with Dynamically Composable Multi-Head Attention》。在該論文中,彩云科技團隊首次發布DCFormer架構,并在基于DCFormer打造的模型DCPythia-6.9B上,實現了在預訓練困惑度和下游任務評估上都優于開源Pythia-12B。這意味著,DCFormer模型在性能上,實現了對Transformer模型1.7-2倍的提升。 

      只有模型效率和智能度提升 才能實現真正的AGI

      溝通會現場,袁行遠首先向參會者展示了一個ChatGPT o1的問答:“假設ChatGPT4每天響應用戶約2億個請求,消耗超過50萬千瓦時的電力。假設全球網絡都使用ChatGPT作為訪問入口,ChatGPT每天消耗多少電力?另外按照這個速度發展下去,到2050年全球人工智能的耗電量會達到目前地球發電能力的多少倍?”ChatGPT o1給出的答案是,“到2050年,全球人工智能的耗電量可能會達到目前地球發電能力的8倍”。

      同樣的問題,在今年2月份的世界政府峰會上,英偉達CEO黃仁勛有更為夸張的表述,“假設計算機的速度永遠不會變快,我們可能需要14個不同的行星、3個不同星系、4個太陽為這一切(AI)提供燃料。”AI對能源的強大需求在業內已經是共識,英偉達致力于通過提升硬件來提升AI效率,降低能耗;而袁行遠則認為,改善大模型底層架構,提升人工智能運行效率,是改變AI能源困局的更優路徑。

      “Scaling Law告訴我們,隨著算力的提升,模型更大、數據更多,模型效果會越來越好,但與之相應的,能耗也會越來越高,在Scaling Law失效,人工智能實現之前,或許我們地球的能源就已經無法支撐了。”袁行遠表示,“沒有效率的提升,AI就是鏡花水月。”

      彩云科技團隊構建DCFormer框架,提出可動態組合的多頭注意力(DCMHA),替換Transformer核心組件多頭注意力模塊(MHA),解除了MHA注意力頭的查找選擇回路和變換回路的固定綁定,讓它們可以根據輸入動態組合,從根本上提升了模型的表達能力,由此實現了對Transformer架構1.7—2倍的性能提升。

      今年的ICML會議上,彩云科技團隊的3篇論文,在錄用平均分為4.25-6.33的情況下,獲得平均7分的高分,并成為國內唯二受邀參加維也納ICML 2024登臺演講的企業。

      袁行遠表示:我們的工作表明,Transformer架構距離“理想模型架構”還有很大的提升空間,除了堆算力堆數據的“大力出奇跡”路線,模型架構創新同樣大有可為。往小了說,在大模型領域,利用效率更高的模型架構,小公司也可以在與世界頂級人工智能企業的對抗中取得優勢。往大了說,模型效率的提升,可以有效地降低人工智能升級迭代的成本,加速AI時代的到來。

      云錦天章問世 首個基于DCFormer架構的通用大模型

      作為國內最早做LLM(大語言模型)的公司之一,彩云科技在2017年就已經開始做NLP和大模型方面的工作。目前,彩云科技旗下有彩云天氣、彩云小夢、彩云小譯三款面向C端用戶的AI產品,是國內為數不多能夠實現盈利的人工智能公司。

      “世界最強的小說續寫通用模型。”溝通會上,袁行遠向大家展示了首個基于DCFormer架構的通用大模型云錦天章。“這個成語是比喻文章極為高雅、華美,和我們的大模型想要實現的效果有共通之處。”袁行遠介紹,云錦天章可以實現在虛構世界觀的基礎上,賦予小說人物編程、數學等基礎能力,可以高速針對大量文字進行擴寫、縮寫,針對文章風格進行大容量更換,同時兼具其他模型的問答、數學、編程等基礎能力。

       而在應用端,擁有四百萬用戶的彩云小夢,也迎來了基于全新DCFormer架構的V.3.5版本。與之前的版本相比,彩云小夢V3.5整體流暢性和連貫性提升了20%,支持前文長度由2000字提升至10000字,故事背景設定最長長度高達10000字。“這意味著,在故事創作或者與人工智能對話中,人工智能能夠記住之前發生的事情,記住之前故事里發生的細節,人物記得自己明確的目標,并且會根據劇情及時進行反思修正。在做到自主創作的同時,發散性收斂,不會天馬行空,人物性格前后一致,故事邏輯性更強。”

      “深度對話,超長記憶,邏輯清晰。”袁行遠總結彩云小夢V3.5的特征,“我們的目標是為用戶打造指尖伴侶定制夢境。”袁行遠表示,彩云小夢的用戶單次使用時長,累計使用時長在同類產品中都處于遙遙領先的地位,“對話超過400句,你會發現彩云小夢真正的魅力。”

      袁行遠介紹,公司接下來將繼續加大對DCFormer的研究和投入:“一方面有打破‘國外做技術層,國內做應用層’刻板印象的情懷所在,一方面也是為公司自有產品應對市場競爭,實現快速迭代升級和能力領先的現實需要。”

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      分享:
      相關文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 欧洲亚洲国产成人综合色婷婷 | 99久久无码私人网站| 88国产精品视频一区二区三区| 91在线小视频| 亚洲精品无码成人| 久久男人av资源站| 欧美日韩一线| 亚洲国产在一区二区三区| 中文字幕网红自拍偷拍视频| 麻豆精品久久久久久久99蜜桃| 万源市| 在厨房拨开内裤进入在线视频| 五月花成人网| 亚洲综合另类| 精品日韩在线视频网站 | 性色蜜桃臀x88av| 久久久午夜精品福利内容| 雷州市| 日韩熟女精品一区二区三区| 日韩美女99精品| 蜜桃av一卡二卡三卡| 又粗又大AV| 久久9199| 狠狠色婷婷久久综合频道日韩| 免费可以在线看a∨网站| 亚洲色欲在线播放一区二区三区| 欧美在线va免费观看视频| 中文字幕无码人妻aaa片| 亚洲欧美日韩成人在线| a级大胆欧美人体大胆666| 苍井空毛片精品久久久| 国产精品理论片| 余姚市| 国产精品成人无码久久久| 国产精品久久久| 国产95在线 | 亚洲| a片地址| 精品一区二区三区波多野结衣| 一区二区AV| 亚洲成人aⅤ| 蜜桃视频在线观看18|