<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給王悅
      發送

      0

      大模型瘋狂 Rush,上海 AI Lab 回歸語言建模本質

      本文作者: 王悅 2024-01-19 17:09
      導語:做大模型,還是要回歸到難且價值大的事情上去。


      2023 年,是國內外大模型瘋狂 rush 的一年。

      在這場白熱化的競爭中,大模型過剩帶來的市場擠壓感正時刻提醒著參與者所面臨的行業洗牌風險。各廠商深知,基礎通用大模型,注定是少數人的游戲。

      為了贏得這場游戲,各家大模型多以一月四次的頻率飛速迭代自身產品。這么做的原因,無非是看中沖在前面的先發優勢——這可以在一定的商業周期中,與后來者拉開不小的距離。

      加之數據上的“飛輪效應”,更早應用、更多用戶的大模型,具備更高的市場打開度。

      誠然,更靠前的身位的確重要,但過度地重視速度,則容易忽略大模型落地所需要的長周期、重基建和工程化難度——底層基礎尚不堅固就匆匆在此基礎上搭建高樓,其效果往往是「基礎不牢,地動山搖」。

      雖說如此做法也可以營造繁榮的表象,成功地將模型的成績在某些特定的方面提上來,且在評測榜單中處于一個比較不錯的位置,但其背后,則更多地依靠專項調優的方法,潛力十分有限。

      經過市場的狂熱期,整個行業意識到,還是要更多地關注基礎能力是否真正取得了進步。

      不同于商業化的大模型廠商,上海人工智能實驗室在這場角逐中則穩定地保持著自己的節奏。在 2023 年下半年發布了一個 20B 的模型之后,相當長一段時間內,在主模型上沒有太多的動作。

      直到今年 1 月 17 日,書生·浦語 2.0 (InternLM2 )正式發布。

      在這幾個月中,上海人工智能實驗室回歸到模型本身的核心能力上去,發現團隊還是有些課要補的,于是就關起門來,真正地、扎扎實實地把基礎能力給補上去。

      「扎扎實實地在做高質量基礎模型,回歸到語言建模的本質。」上海人工智能實驗室領軍科學家林達華如是說到。


      回歸語言建模的本質

      2023 年 9 月,基于對剛發布的 20B 大模型一系列表現的思考,上海人工智能實驗室進行了深入的探討,最終得出結論:如果真的要做到 GPT 4 的水平,單是依靠在應用層面的調優是不夠的。

      把大模型的部分能力或成績調到一個較高水平并不難,但這并不代表整個語言模型的能力到了一個新的高度。林達華表示,「 InternLM2 的核心即在于回歸語言建模的本質。」

      其實,就當下的技術發展現狀,要想做好基礎能力,模型結構并沒有特別大的改變空間,仍然是相對標準的 Transformer 架構,訓練方法大多也是類似的,所以核心還在數據。

      「我們仍然認為,數據是做大模型的本質,語言建模能力增強的關鍵在于訓練語料質量以及信息密度的提升。」林達華告訴 AI 科技評論。

      為此,上海人工智能實驗室研發了新一代的數據清洗過濾技術,主要發展了多維度數據價值評估、高質量語料驅動的數據富集和有針對性的數據補齊這三方面的技術方法。

      數據清洗的方式在原理上其實并不復雜,但是里面涉及到大量的技術細節。這些技術細節的打磨和調優是一個艱苦的過程,需要進行大量的投入。

      首先,從數據價值評估體系來看,沉淀出來這套體系實際上是要花很大力氣。其背后有十幾個不同的模型去關注數據的語言質量、信息密度等不同維度。每一個模型都由一個小團隊或是研究員專門做,最后匯聚成一個完善高效的數據處理管線。

      比如一個特定的模型,它的任務就是把所有的廣告濾出來,保留其中數學層面的東西,要求模型能相對精準地執行這一指令。

      其次,從高質量語料的比重層面來看,從物理世界、互聯網以及語料庫中找到高價值的數據,然后加重它們在整個訓練數據中的比重,本身即是一件有技術含量的事情。

      互聯網中數據的密度較低,會有廣告、低質量的信息充斥其中,這種數據對于模型能力的進一步提升帶來的效果是非常有限的。因此,在數據的分布調整上需要加強對于高信息量的、高價值的數據的富集,會通過一些高質量的導引數據和種子數據去匯聚真正富有知識含量的數據,壓動此類數據的比重,提高使用效率。

      最后,對于模型暴露出來短板,在數據方面做了針對性的增強。針對性補充語料,重點加強世界知識、數理、代碼等核心能力。

      為了打造這一套數據清洗和過濾的體系,團隊在背后訓了三位數數量級的模型,起碼有一兩百個。基本上,每次在部分技術上做一些迭代,得全量訓一個起碼 7B 量級的模型,來發現它究竟有沒有真正成規模的去應用,是不是帶來有效的提升。

      在這個過程中的,大量的內容是沒有帶來提升的,但是也留下了一些真正有效的提升的東西,而這些提升的背后是大量實驗和龐大資源。

      大模型瘋狂 Rush,上海 AI Lab 回歸語言建模本質

      基于千億規模驗證集,比較初代 InternLM 和 InternLM2 在大規模高質量的驗證語料上的 loss 分布,可以看到曲線整體左移,表明了語言建模能力的實質性增強。

      為了把曲線從右邊挪到左邊,團隊花了三四個月的時間。曲線挪過去之后就會發現,只需要花幾個星期的時間,稍做一些對齊等其他工作,下游的表現、能力顯而易見取得更高的成績。

      在過去一年的大模型研發歷程中,上海人工智能實驗室的數據清洗技術完成了三輪迭代。

      大模型瘋狂 Rush,上海 AI Lab 回歸語言建模本質

      比較這三代數據訓練的 7B 模型在下游任務中的性能成長曲線會發現,在新的數據清洗技術的加持下,只使用約60%的訓練數據量即可達到使用上一版數據訓練 1T tokens的性能表現,而且持續訓練后建模能力到達更高的水平。

      去提升數據質量,而非參數量——這一步于上海人工智能實驗室而言,是一個策略性考量。

      打造出一版高質量的數據之后,就可以根據算力的安排靈活地訓大、中、小的模型,無論是現在訓 7B 的、20B 的,還是未來訓 60B 的、100B 的都可以用這版數據。

      目前,上海人工智能實驗室有幾個 T 的高質量 Tokens,還沒有清洗的 Token 還有幾十個 T 的規模。

      「上海 AI Lab 沉淀的訓練數據處理方法和能力,是我們重要的技術優勢之一。」林達華表示。


      水到渠成的核心能力提升

      回歸到本質,把語言建模能力這件事做好之后,模型下游任務的性能自然得到了全方位的提升。

      這就相當于,如果底子不好,后續的一系列進程都難以為繼,雖然也能夠通過大量的題海戰術,在某個特定的方向上做到很高的水平,但并不是模型能力本質地提升;底子好了后,很多上層的東西能夠很快地上手,無論是繼續去做應用,還是把某個方向做一些加強,都是水到渠成的事情。

      大海撈針的長窗口能力

      InternLM2 可以有效支持 200K tokens超長上下文,而且在 LongBench 和 L-Eval 等長文任務中的表現也達到開源模型中的領先水平。

      模型的超長上上下文支持能力,在當下是有切實需求的。

      做一個比較長的對話、完成一個復雜的任務、解一道復雜的題目、讀一個財報,這些實用的基本需求都會對上下文的承接能力有要求。如果長窗口能力不成熟,有很多應用就根本跑不起來。

      支持超長上下文的能力,并不只上海人工智能實驗室在做,其中不乏把能力打磨得很優秀的大模型,但也有很多大模型用了些取巧的方法,雖然宣稱做了128K Token 的上下文,但是不一定能穩定發揮,或者主要支持開頭和結尾的信息,一旦真正在中間某個地方塞一個信息,模型就無法正確回答。

      為了檢驗長窗口能力的有效性,上海人工智能實驗室對 InternLM2 進行“大海撈針”試驗 —— 即將關鍵信息隨機插入一段長文本的不同位置來構造問題,測試模型是否能從長文本中提取出關鍵信息,對模型的要求好似,無論把針放在哪,都要實打實地撈出來才行。

      大模型瘋狂 Rush,上海 AI Lab 回歸語言建模本質

      比較 InternLM-Chat 和 InternLM2-Chat 在不同長度的上下文(橫軸)及上下文中不同位置(縱軸)上召回關鍵信息的準確率,紅色代表較低的召回準確率,而綠色則代表較高的召回率。

      可以見得,初代模型隨著文檔長度的增長,召回準確率不斷下降,對于超過 8K 的上下文,平均準確率下降到低于30%的水平。而新一代 InternLM2-Chat,召回準確率始終保持在高位,16K以內的平均準確率達到 95.65%。

      大模型瘋狂 Rush,上海 AI Lab 回歸語言建模本質

      繼續延長上下文的長度,對 InternLM-2 提出更大的挑戰。試驗結果表明,InternLM2-Chat 在上下文長度延展到 200K 時依舊保持了很高的信息召回成功率,驗證了 InternLM2 對于超長上下文的支持能力是十分堅實的。

      大模型瘋狂 Rush,上海 AI Lab 回歸語言建模本質

      通過兩個主流的長文評測集 LongBench 和 L-Eval 檢驗模型在多種長文任務中的表現對比,從上表中可以看到,InternLM2 在主流長文評測中表現不俗,不僅顯著超越了初代 InternLM、Qwen 和 Mistral,而且相比于在長文任務中有很強表現的 ChatGLM3 也稍勝一籌。

      在提升長窗口能力方面,上海人工智能實驗室沒有做太多取巧。訓練的時候使用了最科學的位置編碼的方式,并且找到了一些有長結構依賴關系的數據,真正優化了訓練系統能夠支持那么長的數據,沒有中間截取了一半文本的情況。

      高質量的對話和創作能力

      InternLM2 采用了 Online RLHF,對獎勵模型和對話模型進行了三輪迭代更新,在每一輪更新中針對前一輪模型的表現更新偏好數據和訓練 prompt。在獎勵模型訓練和 PPO 階段都平衡地采用各類 prompt,使得模型在安全性進一步提升的情況下,對話的主觀體驗也能顯著提升。

      在斯坦福大學1月份剛發布的 AlpacaEval2 英文主觀對話榜單上,InternLM2-Chat-20B 超越了 GPT-3.5、 Gemini Pro 和 Claude-2。在谷歌發布的指令遵循能力評測集 IFEval 上,InternLM2-Chat-20B 的指令遵循率則超越了 GPT-4(79.5% vs 79.3%)。

      在對話能力方面,InternLM2-Chat 可以精準地理解和遵循?戶意圖,具備較強的共情能?。

      大模型瘋狂 Rush,上海 AI Lab 回歸語言建模本質

      大模型的情感能力還是源于數據基礎能力。林達華表示,在 Chat 版本微調的時候,一方面,在制定微調的數據上面做了高質量的清洗和過濾,數據清洗過濾技術的迭代不僅用在預訓練,也用在后面的微調數據上面;另一方面,RLHF的能力也得到了比較強大的增強,給了非常強的反饋,這些反饋使得模型在表達溫度、安全性上面各方面其實都能夠得到比較好的調整。

      在創作能力方面,書生·浦語 2.0 的優勢也很明顯,并且中文特色能力如吟詩作對不在話下,劇本小說亦信手拈來。

      InternLM2-Chat-20B 將根據用戶的簡單指示展開暢想,編寫《流浪地球3》的電影劇本提綱:

      大模型瘋狂 Rush,上海 AI Lab 回歸語言建模本質

      這一劇本提綱,在保持一個合理自洽的邏輯的同時,想象力也足夠豐富。

      可靠的工具調用能力

      工具調用能夠把大模型的應用能力拓展到非常廣的邊界。

      使用更高質量的基礎模型,其工具調用會做得非常可靠,這表現在能夠持續多步的去調工具,中間都不出錯,從而完成復雜任務。

      上一代的書生·浦語模型就已經初步支持了工具調用能力,也展現出了零樣本調用工具的泛化能力。

      InternLM2 進一步升級了模型的工具調用能力,基于更強和更具有泛化性的指令理解、工具篩選與結果反思等能力,可以更可靠地支持復雜智能體的搭建,支持對工具進行有效的多輪調用。

      針對多種任務構建了細粒度工具調用評測集 T-Eval(https://open-compass.github.io/T-Eval/),InternLM2-Chat-7B 在 T-Eval 上甚至超越了 Claude-2.1 和目前的開源模型,性能接近 GPT-3.5 和 GPT-4。

      大模型瘋狂 Rush,上海 AI Lab 回歸語言建模本質

      突出的數理能力

      數學能力是大模型邏輯思維和推理能力的重要體現,InternLM2 從多方面提升模型的數學能力。不僅能解復雜數學題,還提供實用的數據分析能力,還能使用代碼解決各類復雜的計算問題。

      InternLM2 針對性提高了模型的計算能力,在不依靠計算器等外部工具的情況下,在100以內的簡單數學運算上能夠做到接近100%的準確率,在1000以內達到80%左右的運算準確率。

      除此之外,書生·浦語 2.0 也能很好地支持代碼解釋器、編寫代碼進行更復雜的計算,或者對推理的結果進行形式化驗證,從而可以解決計算要求更高或者演算過程更加復雜的問題。

      在典型的數學評測集 GSM8K 和 MATH 上,配合代碼解釋器,InternLM2 都能夠達到較高的分數。其中對于難度更高的 MATH 數據集,借助代碼解釋器,精度從 32.5 大幅提升到 51.2,甚至超過了 GPT-4 的表現。

      大模型瘋狂 Rush,上海 AI Lab 回歸語言建模本質

      配合代碼解釋器,20B 模型已經能夠完成一些例如積分求解等大學級別的數學題目。

      大模型瘋狂 Rush,上海 AI Lab 回歸語言建模本質

      除了求解數學題之外,InternLM2 還能借助代碼解釋器進行數據分析和可視化。

      例如,給模型新一份鮮出爐的2023年全國工業產值的數據表格,模型能夠根據數據繪制經濟數據折線圖,并且使用機器學習模型預測未來的數據。


      書生·浦語 2.0 ——打造堅實的語言大模型基座

      經過 2023 年大模型市場的角逐,不難發現,諸如長窗口、情感計算等任何一個大模型能力上的突破作為優勢,持續的時間不會超過三個月,各家的大模型用不了多久就會把能力補齊。

      時間到了2024年,基座大模型的技術壁壘或許已不再高不可攀,要想獲得公眾、資本還是市場的青睞,勢必還需要把大模型推向真正的應用落地上。

      反過來,各種應用的落地一定會依托一個比較強的、高質量的基礎模型,這也是為什么上海人工智能實驗室選擇做高質量基礎模型的原因——它能夠讓從模型到最終落地的應用中間的鏈條變得更短。

      高質量的模型能讓 AI 基礎上的應用變得更方便、便捷、可靠,用更小的力氣,站在更高的平臺上。

      「未來,我們的關注點還是在基礎模型的質量和能力上。商業組織會在人工智能基座的基礎上進行各類商業探索,但實驗室不一樣,我們會一直聚焦基礎模型研發,長期投入于我們堅信的正確方向上。」林達華告訴 AI 科技評論。

      書生·浦語 2.0 有三個版本,分別為 InternLM2-Base、InternLM2 和 InternLM2-Chat。

      相較于浦語 1.0 ,本次多了一個 Base 版本。不同于以往的是,之前的基座模型已經在數學、編程、理解等多個方面做過強化,而本次的 Base 版本沒有進行任何的強化工作。

      InternLM2-Base 更像是一個預訓練的版本,它的能力還沒有被任何的方式激發,可能在直接表現方面并不是特別強,但是它的可塑性很高。

      Base 版本提供了很大的探索的空間,上海人工智能實驗室發布它的初衷也是希望各行業可以去探索如何將浦語 2.0 在某些垂直的方向進行運用,同時也期待對整個領域的生態構建帶來更大的價值。

      比較初代 InternLM 和 InternLM2 在各個能力維度上的表現,在推理、數學、代碼方面,新一代模型的進步尤為明顯。

      大模型瘋狂 Rush,上海 AI Lab 回歸語言建模本質

      觀察 InternLM2 和 InternLM2-Chat 與 ChatGPT(GPT-3.5)以及 GPT-4 之間的差距可以發現:

      大模型瘋狂 Rush,上海 AI Lab 回歸語言建模本質

      20B 的模型,在多個關鍵評測中已經很接近甚至部分超越 ChatGPT(GPT-3.5),其中在 AGIEval、 BigBench-Hard(BBH)、GSM8K、MATH等對推理能力有較高要求的評測上,新一代20B模型的表現都優勝于 ChatGPT,在代碼能力上的表現也遠優于同量級開源模型,縮小了和 ChatGPT 的差距。

      1 月 17 日,書?·浦語 2.0 正式發布后,即可免費商用,全鏈條開源。

      上海人工智能實驗室在大模型上,始終堅持一個路線:以高質量的開源來賦能創新——這是實驗室的定位所在,也是其使命使然。雷峰網雷峰網雷峰網(公眾號:雷峰網)

      「我們正在建立國家的高質量的開源基座,也希望能夠跟業界、學界傳達這樣的一個觀點:做大模型還是要回歸到很難但長期價值大的路徑上去,這樣才能最終到達一個新的高度。」


      開源鏈接:https://github.com/InternLM/InternLM

      免費商用授權許可申請:https://wj.qq.com/s2/12725412/f7c1




      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      大模型瘋狂 Rush,上海 AI Lab 回歸語言建模本質

      分享:
      相關文章
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 久草大| 亚洲乱码中文字幕| 色偷偷偷久久伊人大杳蕉| 两根大肉大捧一进一出好爽视频 | 亚州色综合| 精品国精品无码自拍自在线| 日韩不卡手机视频在线观看| 黄色综合网| 亚洲精品国产电影| 福贡县| 亚洲无码丝袜熟女| 成av免费大片黄在线观看| www.亚洲555久久久| 国产精品久久久| 日韩AV一区二区三区| 五月婷婷成人| 香蕉久久国产AV一区二区| 午夜在线不卡| 亚洲学生妹高清av| 色av综合av综合无码网站| 日本牲交大片免费观看| 一本色道综合久久欧美日韩精品| 精品无码av无码专区| 亚洲成a人片77777kkkk| 亚洲成a人片在线观看无码| 99精品成人| 精品无码国产一区二区三区AV| 欧美成人精品在线| 她也色tayese在线视频| 国精产品自偷自偷ym使用方法| 久久久久99精品成人片牛牛影视 | 人人做人人澡人人人爽| 未满十八18禁止免费无码网站| 亚洲国产av自拍精选| 3p视频在线观看| 中文字幕人妻综合另类| 制服丝袜在线云霸| 欧美人与禽交zozo| 玩弄人妻少妇500系列视频| 亚洲精平久| 在线天堂资源www在线中文|