<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給王悅
      發送

      0

      專訪面壁曾國洋:踩過 1000 次大模型的坑后 ,造一個性能小鋼炮

      本文作者: 王悅 2024-02-05 14:34
      導語:以小博大,面壁MiniCPM在大模型賽場上扔出了重磅炸彈。


      2月1日,剛成立一年的面壁智能發布了兩個在海內外大模型領域「炸裂級」的存在——面壁 MiniCPM 2B 旗艦端側大模型與面壁OmniLMM多模態大模型。

      MiniCPM 2B 有著當之無愧的「小鋼炮」稱號,其炸裂的點在于,從規模大小和性能來看,僅用2B 規模和1T tokens精選數據,便已在多項主流評測榜單、中英文平均成績中超越被稱為“歐洲最佳大模型”的Mistral-7B。

      專訪面壁曾國洋:踩過 1000 次大模型的坑后 ,造一個性能小鋼炮

      在與其他同等規模大模型的對比中,面壁MiniCPM表現依舊領先,大幅超越了 Llama2-7B, Mistral7B,Gemini Nano,Qwen-1.8B等一眾模型,甚至還能越級比肩 Llama2-13B、Falcon 40B和Cohere 54B此類比自己龐大數十倍規模的模型。

      可以說,面壁智能這次扔出的“2B小鋼炮”,炸出了超越Mistral-7B發布的效果,展示了端側大語言模型的無限潛力

      針對面壁智能本次發布的大模型成果,AI 科技評論獨家對話面壁智能 CTO 曾國洋后發現,面壁這個剛成立一年的團隊背后,是國內頂尖 AI 科學家更深厚的探索和積累。


      “用最小的規模,做最強的AI”


      端側、高效、以小搏大——這是面壁智能 CTO 曾國洋給出了面壁智能發布大模型的關鍵詞。

      其中「高效」二字,是刻在面壁智能骨子里的基因,不僅體現在訓練和推理上,也體現在參數上——用更小的參數達到更好效果。更多關于面壁智能團隊背后的故事,歡迎添加作者:s1060788086、anna042023 來聊。

      Mistral-7B 用 7B 的參數量戰勝了 13B 參數量的模型。「為了展現面壁的效率,我們做到了用 2B 干掉Llama 的 13B,高下立見。」

      在過去的幾個月里,面壁智能團隊做了上千次實驗、模型的沙盒,去搜索各種各樣的訓練技巧、超參數等。找到了訓練大模型最優秀的一組參數,并使用找到的這組參數訓練了一個2B模型作為驗證,最終得到了MiniCPM模型。從實際效果來看,確實也取得了比較好的效果,在 11 項主流測評榜單、中英文平均成績中超越Mistral-7B:


      專訪面壁曾國洋:踩過 1000 次大模型的坑后 ,造一個性能小鋼炮

      在 與國內外同尺寸模型的性能對比上,MiniCPM-2B 的評分同樣處于領先位置。


      專訪面壁曾國洋:踩過 1000 次大模型的坑后 ,造一個性能小鋼炮

      面壁智能之所以能做到在小尺寸模型技術的競技場上“以小博大”,首先是因為具有全流程高效的 Infra,為大模型創業打好了地基。其全流程優化加速工具套件平臺面壁ModelForce由訓練框架BMTrain、推理框架BMINF、壓縮框架BMCook和微調框架BMTune構成,能降低90%的訓練成本,讓推理加速10倍。

      再者,面壁「模型沙盒」讓大模型和小模型形成良性循環、高效訓模。小模型預測大模型性能,大小模型共享超參數方案,以實現部分調整接近Cerebras-GPT的超參穩定模型規模擴增,達成最優Batchsize、學習率。另外固定模型倍增上限,使模型訓練隨時可以叫停,獲得階段最優的模型增長倍數。

      在數據方面,面壁團隊形成從數據治理到多維評測的閉環,牽引模型版本快速迭代,堪稱現代化「數據工廠」。

      在具體應用方面,面壁MiniCPM在語言、代碼及多模態上均表現優秀。面壁MiniCPM具有更全面的通用與中文能力,Chat模型對答如流,在和人評最接近的MT-Bench指標中獲得高分。面壁MiniCPM還能夠自己編寫自己的代碼,其編程能力超越Mistral。另外,面壁MiniCPM創新實現了首批多模態上手機,具有當下同量級模型的最強多模態能力。

      在模型發布會現場,面壁智能 CEO 李大海也現場演示了 MiniCPM-2B 的具體能力。在對話能力層面, MiniCPM-2B 的反應速度和真人反應的速度不相上下:

      專訪面壁曾國洋:踩過 1000 次大模型的坑后 ,造一個性能小鋼炮

      在模型門普遍的短板推理能力上,MiniCPM-2B 也能解決相對復雜的問題:

      專訪面壁曾國洋:踩過 1000 次大模型的坑后 ,造一個性能小鋼炮

      「小鋼炮」性能突破至此,但其意義遠不止表面上模型能力的提升,它更使得普通的、配置本身不高的端側設備擁有搭載更強大模型的能力,拓展了大模型的應用邊界和應用空間。

      大模型時代,AI  native 是必然的趨勢。面壁智能在 MiniCPM-2B 的性能水到渠成后,選擇用最小的規模,做最強的 AI。面壁智能還把多模態版本的MiniCPM-V 部署在手機,首批跑通了多模態大模型在手機上的部署。

      更重要的是,端側模型有很強的商業意義。它使得在端側做應用這件事從不可能變成了可能。另外在端上,在智能終端上全天候的特性,讓很多應用變得更加落地。

      除了小鋼炮之外,多模態大模型表現得同樣吸睛,“面壁OmniLMM”躋身開源社區最強多模態模型之列,同規模能力領先。

      發布會上,李大海同樣現場展示了端側模型在離線狀態下的多模態問答能力。


      12B 多模態交互問答的石頭、剪刀、布案例驗證下來,模型回答十分準確。

      綜合性能有較大優勢的前提下,面壁 MiniCPM 的成本不升反降。

      省錢也是小鋼炮的核心優勢之一,能夠以極低的成本支持CPU推理,1元即可使用 1,700,000 tokens。團隊內部更用「廢卡拯救計劃」調侃他們對顯卡的極致使用能力,僅以 1 張卡全參數微調,消費級顯卡也能訓練大模型。

      面壁MiniCPM量化版,在大小上壓縮了75%,但性能基本無損耗,并且跑通國際主流手機與終端CPU芯片,發布多年以上的老機型也無壓力。

      基于足夠強的大模型性能,面壁智能也推出了「大模型+ Agent」雙引擎戰略,目前做了些探索性的工作 XAgent、ChatDev 和 AgentVerse 等,目前還在尋求 Agent 更好的落地形式。

      “我們沒有追趕誰,在技術上我們一直是領先的。”面壁智能的聯合創始人、清華大學長聘副教授劉知遠在發布會上如是說到。


      先踩1000次坑,而后以小搏大


      面壁科研團隊由劉知遠帶領,一共發生過4次重要的技術方向推動,且紛紛經過了歷史的考驗:涉及到從深度學習、BERT、大模型到Agent的幾次技術轉型。

      劉知遠團隊屬于清華大學自然語言處理實驗室 THUNLP,從 2018 年BERT轟動面世后便開始研究預訓練語言模型, 并于2019 年推出世界第一個知識指導的預訓練語言模型“ERNIE”,也是2020 年 6 月 GPT-3 推出后國內第一批大模型的忠實擁躉研究者。

      2020 年劉知遠團隊參與智源悟道大模型項目,負責悟道中的“文源”,主要研究中文大模型,先后推出二十億參數大模型 CPM 1.0 與千億參數大模型 CPM 2.0。

      2022年,劉知遠團隊將高性能計算與大模型相結合的方法發表于 Nature子刊《Nature Communications》,是國內最早在大模型訓練中引入分布式加速算法的團隊之一。

      專訪面壁曾國洋:踩過 1000 次大模型的坑后 ,造一個性能小鋼炮

      面壁團隊雖然成立不久,但其中核心成員是身經百戰。從最開始的 CPM 1、2、3 到 CPM-Ant 、CPM-Bee 、CPM-Cricket,然后到最近的MiniCPM,面壁團隊的核心成員都參與其中,其實MiniCPM可以看做CPM-D的中間實驗版本。

      曾國洋告訴 AI 科技評論,除了現在能發布的訓得不錯的模型之外,背后也訓崩了很多模型。

      「我們之前其實也經常走彎路,大模型訓練其實是非常需要積累的。我一直覺得大家都清楚大模型訓練的那些技術點,但是實際上真正去操作的時候有很多不好用技術來表達出來的內容,反而會成為訓練大模型成功的重要因素,包括在訓練過程中對各種意外的處理,對數據模型訓練的認知等,這些就是我們在過程中持續積累到的東西,更像是一種經驗性的能力。」

      面壁團隊所積累的處理異常的經驗、數據的選擇認知——這些是看不到的東西才是內功,需要在大模型當中持續發力的,才能構成真正意義上的壁壘。

      被稱為面壁團隊中的「模型料理三星主廚」胡聲鼎在發布會上說到:即使把「如何訓好大模型的步驟」一步一步寫下來,別的團隊也不一定能做出來了,這其中更多的是一種經驗。這好比,能拿到米其林三星主廚的菜譜也不一定能做得了三星大廚。

      除了長期積累下來的經驗,面壁智能團隊自然也開創了新技術,其中比較關鍵的是WSD的調度器看,它相對cosine調度器有一定的優勢,不只是讓模型持續地訓練。并且,面壁團隊已經探索到這種調度器全局最優和局部最優的階段分開了,分開之后可以探索局部最優的階段吸收更好的。

      其實,于面壁團隊而言,無論是研發大模型還是小模型,兩者差別并不大,無非是啟動「1000億」和「20億」參數的區別而已。

      這次發布2B模型,是驗證面壁「模型沙盒」成千次實驗的結果,相比于主流優秀方案做了很多改進,包括超參的調整方案,使得不需要在大模型上調優可以獲得優秀的大模型,再比如改訓練方案等。靠著踩1000次坑再爬起來總結經驗的品質,面壁團隊打磨出了其他團隊不具備的能力

      大模型在國內起步的早期階段,曾國洋曾經連續幾個月工作都不覺疲憊,「因為我很相信 AGI 會實現」。

      面壁智能團隊對 AGI 有很大的愿景。劉知遠也表示,實現 AGI 需要我們做什么,我們就做什么。


      對話面壁智能 CTO 曾國洋


      AI 科技評論:「高效」是面壁團隊的基因或追求嗎?

      曾國洋:我們確實在「高效」這方面一直都有所追求,包括在比較早的時候其實就開始做很多 Infra的工作,算是追求高效的體現吧。因為面壁也是比較早開始做大模型的一家公司,大模型之前在國內也是走過一些彎路,就包括大家其實就是在卷模型的參數量等。2021 年那段時間國內都卷得很瘋狂,但卷完之后大家發現參數量能訓到再大其實也沒有意義,因為沒辦法讓它有效落地。

      所以對于大模型落地來說,效率是很關鍵的問題,需要控制成本來達到更好的效果,這樣才能去擴展大模型的應用邊界。換句話說,大模型的應用邊界可以理解為它創造的價值減去它的成本。所以在這個過程中我們追求效率,就是為了追求讓成本更低,創造的價值更多,擴展大模型的應用邊界。

      AI 科技評論:為什么會讓面壁MiniCPM最開始的路徑選擇就是在端側應用?

      曾國洋:一方面是我們想要在小規模模型上驗證『模型沙盒』得到的最優參數,另一方面是因為前段時間端側模型也受到了很多媒體的報道和關注。我們發現2B模型正好能夠跑在各種端側設備上。其實2B模型本身其實是對我們在模型訓練這一側技術的驗證,驗證了用之前研究的技術來訓一個模型確實能訓好。然后正好也趕上了這個時間點,所以就想能不能讓大模型真的在手機上跑起來,迸發出一些新的、有趣的應用案例。

      AI 科技評論:2B模型已經能夠滿足或者集成想要的效果的話,是不是沒有必要再做大了?

      曾國洋:其實我們想是走兩端。一個是我們做小規模模型,它其實能做更快的技術驗證,成本更低。同時我們在更大的模型這一端,會把效率拉到極致,即擴大模型參數量,然后在大家都可以接受的成本下,看模型能達到的性能效果的上限,這其實是一個比較偏兩端的方案。

      AI 科技評論:在未來研究大模型用「以小博大」的方式會是一種趨勢嗎?

      曾國洋:我覺得其實各家肯定都在做以小博大的事。因為我們在這方面做得非常突出,所以才做出這個效果。換句話來說,大家都會做大模型的效率優化,即達到同樣的效果,要讓模型規模更小,成本更低,這其實是大家都在做的事。

      我覺得我們和其他人都會在這條線上持續發力。這一次的2B模型告訴我們,現在大模型還有很多沒有挖掘的潛力,包括現在還沒有充分達到2B模型的極限。也許在未來一到兩年左右的時間,我們就有機會能夠看到一個能在終端設備上跑起來、對標現在像 GPT 3.5 Turbo 這樣水平的模型。

      因為我們做了非常多實驗,發現可以探索的東西還非常多,做一些探索就能看到模型效果、效率在持續提升。同時也能感受到,現在在端側上,包括各大手機廠商其實也開始重視大模型能否運行在手機或終端上。未來一到兩年我們在模型側會繼續發力,在硬件上也會持續更新迭代,所以我還是對這個事還是挺樂觀的。

      AI 科技評論:這些有待挖掘的潛力會體現在哪里呢?

      曾國洋:這么多年我也訓了挺多模型的,能很明顯感受到,雖然模型規模一直沒有特別大的變化,但在效果上是在飛速提升的。比如我們在 2020 年底時訓練的第一個版本的模型 CPM 1,它其實和今天的 Mini CPM 的參數量差不多,但是從使用的感受上來說, Mini CPM就能感受到明顯的提升。

      在模型訓練技術這一側持續挖掘的話,我覺得還有更大的一些提升空間。包括我們現在做一些像Int4之類的量化,會發現就算把它從 16 bit 變成4 bit,效果都不會下降,也能看出里邊肯定有一些水分之類的還沒有完全榨干的東西。從這里我也能感受到,模型其實還有很多可以挖掘的潛力,包括我們去做模型預訓練和在數據上的一些技術。

      AI 科技評論:最開始的悟道模型,您從最初就參與了嗎?

      曾國洋:對,我特別早就參與了。其實說實話我覺得我真正被大模型吸引是在完成 CPM 1 的訓練之后,當時我第一次感受到我是真正在做一個有智能的東西。雖然之前我也做過 CV 領域和NLP 領域,但那時候大家很多工作都是一些偏認知、識別的東西,但是大模型是真正有創造力。我當時就感覺它才是有智慧的東西。

      AI 科技評論:您遇到過哪個非技術的難題讓您印象深刻的嗎?

      曾國洋:模型訓練里大家最容易遇到的問題是 loss 不收斂,容易訓著訓著就飛掉的問題。很多人看到 loss 飛掉會去反思,想去積累各種經驗。但我們因為訓崩過太多模型,在這個過程發現了其實往往不會是一種原因導致的,而是有可能是好幾種不同意外、缺陷導致了同樣的結果,很難用一種固定的手段去修掉,因為造成loss 飛掉的原因是多種多樣的。

      針對這些原因,我們得一個個去排查,才能找到根本原因。只有把根治了,才能讓這個問題真的修好。但從之前一些公開的經驗表明,大家遇到這些問題,通常都會比較籠統的說,跳過一段數據或者改一下訓練learning rate 等等比較表面的操作。但更根本的其實得靠在這個過程中持續的積累,包括我昨天想了一個對模型的優化,模型崩掉就說明這個優化大概率是行不通的。

      在這些看不到地方里,我們積累下來很多經驗,就像走在路上摔了一跤,可能是因為鞋帶松了,可能是因為地上有個坑,也可能是踩香蕉皮了,只有都踩過之后才知道,原來有這么多方法能讓人摔跤。

      AI 科技評論:面壁MiniCPM作為端側大模型,具有什么獨到優勢?

      曾國洋:一個模型的能力更強,能發揮的價值也會更高。我們在2B模型上做出能比肩Mistral-7B的效果,其實也能很大程度擴展模型的應用邊界。Mistral-7B這樣的模型在之前是必須在 GPU、云端上跑的,這樣其實也限制了它在實際應用中范圍,因為用戶沒有 GPU等設備,就可能跑不起來。

      而對于一個2B模型來說,它是沒有這些問題的,甚至能跑在手機上。2B模型也許以后就能直接內嵌在手機或者打包到各個應用里,以一種更輕便的方法能跑在更多的設備上,不用考慮用戶到底有沒有 GPU 這樣的設備,因為都是能運行的。這樣我們就能讓大模型有更廣闊的實際應用的空間。

      我以前用Mistral-7B這類模型去做了一個應用,需要自己部署服務器才能讓用戶連上,才能發揮大模型的能力。而現在我可以把這個2B模型打包到我的應用 APP 里,直接發布到用戶的手機上,用戶都不用聯網就能直接訪問,大大節約了作為一個大模型應用開發者的成本,另一方面也能讓模型在更多的場景被使用到,比如手機、汽車、音箱等,讓萬物都擁有智能,且是在非常低功耗的芯片上。這也是「Internet of Agents」的概念,發揮群體協作和更強大的智能。

      AI 科技評論:為什么面壁會對Agent如此重視?

      曾國洋:我們的認知是,一方面我們在降低大模型的成本,訓練 Mini CPM,另一方面我們也在擴展它能力的邊界和創造的價值。Agent 的技術是一個能讓模型創造更多價值的一個技術,所以我們非常看重它。

      大模型其實像人的大腦,有智能的決策、認知、判斷能力,但只有大腦的話,它能做的事還不夠。而Agent的技術相當于給它接上了雙手,讓它能使用外部工具和知識,并且我覺得將來Agent 還會繼續發展,讓模型能夠像人一樣真正地思考,接受反饋,自我進化,甚至能實現Agent之間更好的協作。這其實是我們對于Agent 這條路線未來的展望,我們覺得這是一條非常有前景的路線,因此我們目前在Agent 方面做了非常多的探索和研究,同時也發出了很多聲音。

      但畢竟Agent 是新的技術,所以目前還沒辦法說有一個非常清晰的規劃,或者很篤定說這個技術一定這樣做就成了,只是我們相信往這個方向做一定是對的。

      AI 科技評論:面壁智能擁有全產品線,涵蓋模型層的AI Infra+大模型,Agent智能體,以及基于「大模型 + Agent 」的上層應用。,在這其中是否會有側重點?

      曾國洋:其實雖然說這是幾個產品線,但在我心里是一條線。Infra 支撐我們的模型能更快、更好、更強地訓練,模型的能力又更好地支撐了Agent的技術,Agent技術就像模型能力的放大器一樣,能夠讓模型發揮更大的價值。同時Infra 又能讓模型成本更低,能運行在更多設備上,有更大空間,所以它們在我心中就是在一條線上。這也是我們對于「高效」的追求,在全鏈路上都是高效的,整個優化目標是為了讓效率更高,讓大模型應用空間更廣。雷峰網(公眾號:雷峰網)雷峰網雷峰網

      本文作者:s1060788086、anna042023,歡迎添加微信,交流認知,互通有無。


      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      專訪面壁曾國洋:踩過 1000 次大模型的坑后 ,造一個性能小鋼炮

      分享:
      相關文章
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 国产毛片基地| 黄总av| 日本少妇xxx做受| 牲欲强的熟妇农村老妇女视频| 中文字幕亚洲亚洲精品| 日韩人妻网站| 美女扒开尿口让男人桶| 日本少妇xxx做受| 久久久中日ab精品综合| 国产亚洲精品2021自在线| 日逼av| 啪啪电影| 五月激情婷婷综合| 丁香六月久久婷婷开心| 中文字幕无码一区二区免费| 搡老熟女vⅰdeos| 亚洲天堂在线99| 日韩欧美激情兽交| 中文字幕亚洲综合第一页| 精品无码产区一区二| 枣庄市| 国产自产V一区二区三区C| 欧美精品另类| 私人毛片免费高清影视院| 亚洲国产精品无码久久一区二区| 欧美亚洲综合成人a∨在线| 东北老女人高潮大叫对白| 武装少女在线观看高清完整版免费 | 国产精品亚洲综合色区丝瓜| 日本www色| www黄色com| 国产永久免费高清在线观看| 免费精品无码av片在线观看| 国产精品久久久久野外| 精品无码黑人又粗又大又长 | 日韩久久不卡| 亚洲精品国产美女久久久99 | 国内A片| 国产在线你懂| 成人自拍网| 中文字幕乱码亚洲美女精品|