<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給王悅
      發送

      0

      上海AI實驗室開源發布高質量語料“萬卷CC”

      本文作者: 王悅 2024-03-14 15:40
      導語:百里挑一“萃取”數據精華


      近日,上海人工智能實驗室(上海AI實驗室)發布新一代高質量大模型預訓練語料“萬卷CC”(WanJuan-CC),首批開源的語料覆蓋過去十年互聯網上的公開內容,包含1千億字符(100B token),約400GB的高質量英文數據。作為“大模型語料數據聯盟”今年首發的開源語料,WanJuan-CC將為學界和業界提供大規模、高質量的數據支撐,助力構建更智能可靠的AI大模型。

      預訓練數據的質量對大模型整體性能至關重要。當前,CommonCrawl(CC)數據集因其規模大、跨度廣而成為國際主流大模型訓練數據的重要來源。與此同時,其原始數據格式復雜、數據質量低等問題,或將導致模型訓練效率低,甚至可能引發價值觀對齊等方面的隱患。

      中國科研人員通過原創的數據清洗技術,從CC數據庫中抽取約1300億份原始數據文檔進行再處理,“萃取”出其中約1.38%的高質量內容,構建成WanJuan-CC語料庫。實驗結果顯示,WanJuanCC具有高文本質量、高信息密度的特點,可滿足當前大模型訓練對大規模高質量語料的需求。

      上海AI實驗室發布的書?·浦語2.0(InternLM2)即以WanJuan-CC為關鍵數據作支撐,使訓練效率和語言建模能力大幅提升,綜合性能領先開源社區。

      開源數據:https://opendatalab.com/OpenDataLab/WanJuanCC


      高質量語料驅動,效率性能雙提升

      近期,上海AI實驗室發布了新一代大語言模型書?·浦語2.0(InternLM2)。回歸語言建模本質,InternLM2綜合性能達到同量級開源模型的領先水平。模型基座語言建模能力的提升,則得益于預訓練文本質量及信息密度的增強。作為InternLM2的關鍵預訓練語料,WanJuan-CC的文本質量和高信息密度經過了模型實際驗證。在InternLM2的訓練過程中,在僅使用約60%的訓練數據情況下,模型即獲得了與此前使用1T token相同的性能表現,大幅提升訓練效率,并使模型在相同語料規模上取得了更好的性能。

       上海AI實驗室開源發布高質量語料“萬卷CC”

      綠色曲線為InternLM2使用WanJuan-cc作為預訓練語料,在不同數據規模上取得的任務性能分布,結果顯示,WanJuan-CC可大幅提升模型訓練效率

      研究團隊通過對CC原始數據進行清洗,去除了網頁代碼和重復內容,同時利用分類模型剔除了廣告和質量較差的信息,并通過內容一致性、語法正確性、數據噪聲和信息價值等四個維度,對語言的流暢性進行評估。為驗證數據質量,研究團隊使用WanJuan-CC和RefineWeb(從CommonCrawl中抽取并構建的主流英文預訓練語料)分別重新訓練了參數量1B的模型,并進行評測。結果顯示,由WanJuan-CC作為訓練數據的模型在多項驗證中取得了更優效果。

       上海AI實驗室開源發布高質量語料“萬卷CC”

      基于WanJuan-CC訓練的1B模型在Pile驗證集評測效果更優,這表明由WanJuan-CC訓練的模型在不同領域和各類知識上擁有更強能力

       

      四重處理, 百里挑一“萃取”高質量數據

      為從浩如煙海的CC數據庫中“精選”最可靠的信息,研究團隊搭建了高性能分布式數據處理基礎設施,通過啟發式規則過濾、多層級數據去重、內容安全過濾、數據質量過濾等四個步驟,從原始數據中“萃取”出高質量數據,數據留存率僅為原數據的1.38%。


      上海AI實驗室開源發布高質量語料“萬卷CC”

      通過原創技術,對CC原始數據進行多階段處理,得到了高信息密度的WanJuan-CC

      研究團隊首先從CC中抽取了約1300億份原始數據文檔,然后基于高性能數據處理工作流得到2.2T token(35.8億個文檔)安全數據,最后,根據質量排序精選出1T token(3.6億個文檔)質量最高的數據,構建成WanJuan-CC。如以下柱狀圖所示,在WanJuan-CC構建過程中的每一階段,均進行了大比例的數據去除。對于僅占原CC數據比例2.76%的安全信息,研究人員再次“篩”掉五成低質內容,最終呈現出“百里挑一”的高質量數據。

      上海AI實驗室開源發布高質量語料“萬卷CC”

      各清洗階段的文檔保留率和去除率(本圖使用對數坐標軸)

       

      數據質量高,模型更可靠

      為推動訓練更智能可靠的AI大模型,研究團隊以保障數據安全性為前提,在數據處理的各環節均實施了多項安全加固措施,使WanJuan-CC成為目前開源CC語料中首個在毒性(Toxic)、色情(Porn)和個人隱私三方面同時進行了安全加固的英文語料,因而在價值對齊方面具有更高的可靠性。


      上海AI實驗室開源發布高質量語料“萬卷CC”

      與部分開源CC語料多維度對比,在毒性、色情和個人隱私等方面,WanJuan-CC均進行了安全加固

       研究人員分別對WanJuan-CC、Redpajama和Refineweb數據集進行了10萬條數據的抽樣,從毒性、侮辱、恐嚇等7個維度進行評分,以驗證各數據集的信息安全性。結果顯示,WanJuan-CC在各維度上的體現出最高安全性。

      上海AI實驗室開源發布高質量語料“萬卷CC”

      WanJuan-CC與其他開源英文CC語料安全性對比

      高質量、多模態、寬領域的數據已成為支持當前人工智能大模型發展的重要基石。WanJuan-CC的主要構建團隊——OpenDataLab致力于建設面向人工智能開發者的超大規模、高質量、多模態開放數據服務平臺,目前已匯聚高質量多模態數據集超6500個,涵蓋大模型研發應用所需的各類語料數據。雷峰網(公眾號:雷峰網)雷峰網雷峰網


      下載更多開源語料,請登錄大模型語料數據聯盟開源數據服務指定平臺:

      https://opendatalab.com

      雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

      上海AI實驗室開源發布高質量語料“萬卷CC”

      分享:
      相關文章
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 天天综合天天做天天综合| 丰满人妻被猛烈进入中文字幕| 久久青草免费91观看| 欧美第3页| 安康市| 三区在线视频| 久久久亚洲精品成人| 亚洲精品成人网| 91综合色| 草草地址线路①屁屁影院成人| 亚洲AV无码破坏版在线观看| 大陆熟女热妇Av旧56| 在线?国产?精品?播放?VA| 5d肉蒲团之性战奶水| 国产三级a三级三级| 精品国产亚洲第一区二区三区| 国产精品美女黑丝流水| 国产做受| 亚洲精品无码a| 国产精品老热丝在线观看| 人妻斩0930无码视频| 色综合久久88色综合天天| 一本一道人人妻人人妻αv| 尹人成人| 3P在线| 国内熟女中文字幕第一页| 国产九色AV刺激露脸对白| 当雄县| 中文精品字幕人妻熟女| 国产麻豆一精品一av一免费| 亚洲国产制服丝袜先锋| 欧美丰满熟妇xxxx性| 国产成人8x视频网站入口| 精品人体无码一区二区三区| av无码精品一区二区乱子| 亚洲天堂在线播放| 亚洲中字幕| 亚洲国产无套无码av电影| 在线亚洲人成电影网站色www| 国产一区二区三区不卡视频| 亚洲国产精品成人网站|