0
【雷峰網(公眾號:雷峰網)】近日,千呼萬喚之下,Meta終于發布了開源大模型Llama 3的 8B 和 70B 版本,再次震動 AI 圈。
Meta 表示,Llama 3 已經在多種行業基準測試上展現了最先進的性能,提供了包括改進的推理能力在內的新功能,是目前市場上最好的開源大模型。
根據Meta的測試結果,Llama 3 8B模型在語言(MMLU)、知識(GPQA)、編程(HumanEval)等多項性能基準上均超過了Gemma 7B和Mistral 7B Instruct,70B 模型則超越了名聲在外的閉源模型 Claude 3的中間版本 Sonnet,和谷歌的 Gemini Pro 1.5 相比三勝兩負。Meta還透露,Llama 3的 400B+ 模型仍在訓練中。

Meta 順利地保住了它在開源大模型領域的王座。
開源 Llama 3 的發布對整個大模型行業都是影響很大的事情,再次引發了對“開源與閉源之爭”的熱烈討論。但大洋彼岸,回到國內,畫風突變,有一種刺耳的聲音在網絡上蔓延——“Llama 3 發布,國內大模型又能有新突破了”。
甚至在 Llama 3 還未發布時,就能聽到“國內要想趕超GPT-4,就等著 Llama 3 開源吧”的聲音。
開源本身是一件致力于打破技術壟斷、有利于促進整個行業不斷進步、帶來創新的事情,但每次Meta一開源,從Llama 到 Llama 3,國產大模型都要經歷一次來自國人的嘲諷和貶低。
其實不止大模型,從云計算到自動駕駛,相似的論調經久不衰,究其原因,長久以來中國的技術一直跟在國外后面發展,長期被壓一頭、引發了國人的技術不自信,即便是在某些領域實現了領先,也會出現不信任、喝倒彩的聲音。
但其實,經過一年的辛苦磨練和積累,如 Llama 這樣的國外大模型一直很強的同時,國產大模型也可以后來者居上,變得很強,甚至在 Llama 3 發布之前,國產大模型就已經進化到 Llama 3 的效果,甚至強過 Llama 3 :
近日,清華大學 SuperBench 團隊在前不久發布的《SuperBench大模型綜合能力評測報告》基礎上加測了 Llama 3 新發布的兩個模型,測試了 Llama 3 在語義(ExtremeGLUE)、代碼(NaturalCodeBench)、對齊(AlignBench)、智能體(AgentBench)和安全(SafetyBench)五個評測集中的表現。
SuperBench 團隊共選取了如下列表模型,將Llama 3 放置到全球內的大模型行列中進行對比,除了國外主流的開源和閉源模型,也將 Llama 3 跟國內的主流模型進行對比。

對于閉源模型,SuperBench 團隊選取 API 和網頁兩種調用模式中得分較高的一種進行評測。
根據他們發布的測評結果,可以得出以下結論:
(1)Llama 3-70B 版本在各個評測集上均差于 GPT-4 系列模型以及 Claude-3 Opus 等國際一流模型,在語義、代碼兩項評測中距離榜首差距最大,智能體評測中表現最好,排名第5;但考慮到模型參數量的差異,Llama 3-70B 整體表現還是不錯的。
(2)和國內大模型對比,Llama 3-70B 在五項評測中超過了大多數國內模型,只落敗于 GLM-4 和文心一言。
根據 SuperBench 標準測試結果可以發現,國產大模型早已有能強過 Llama 3 的大模型,國產大模型 GLM-4 和文心一言早就達到了 Llama 3 的實力,屬于全球大模型競爭第一梯隊。經過一年的追趕,國產大模型跟 GPT-4 的差距在不斷縮小。
而這也讓諸如“Llama 3 發布,國內大模型又能有新突破了”“國內要想趕超GPT-4,就等著 Llama 3 開源吧”的技術不自信論調,不攻自破。
SuperBench大模型綜合能力評測框架,是清華大學基礎模型研究中心聯合中關村實驗室于2023年12月共同發布,其研發背景是基于過去一年里大模型領域的評測亂象——通過刷榜,各家大模型紛紛名列各大榜單第一,趕超GPT-4。
SuperBench 目的是提供客觀、科學的評測標準,撥開迷霧,從而讓外界對國產大模型的真正實力有更清晰的認知,讓國產大模型從掩耳盜鈴的虛幻中走出來,正視與國外的差距,腳踏實地。
目前,國內外均有一系列測試大模型能力的榜單,但時至今日,因為數據污染和基準泄露,大模型領域頗受關注的基準測試排名,其公平性和可靠性正在受到質疑,很多大模型用領域內數據刷榜來宣傳、標榜自己已經成為基操,國內外都出現了一種詭異的現象——每每一個大模型推出,每一家都刷新了重要 Benchmark 榜單,各個都有重大突破,要么排名第一,要么超過GPT-4。
短短時間里,似乎大家都“遙遙領先”,實力不相上下了。但落到實踐中,大多模型的性能表現往往差強人意,很多模型的性能表現和 GPT4 的差距還很大。
這種掩耳盜鈴的行為,在過去一年里持續著,國內大模型陷入刷榜狂歡,但大家都心知肚明至今還沒有模型能真正跟 GPT-4 比肩。畢竟,羅馬不是一天建成的,擺在所有人面前的一道道鴻溝——技術上的突破和算力、資本的投入,讓我們認清現實——我們與 OpenAI 的差距并不是一年半載就能填補的。
而刷榜風盛行引發的一大惡果是,外界對國產大模型的實力難以分辨,魚目混珠中,一些真正有實力的大模型創業公司,應該融到的錢、吸引的人才卻被那些擅長宣傳、造勢的給搶走了,引發劣幣驅逐良幣,影響了整個國產大模型的發展。
甚至如引言所述,一提到國產大模型,有部分人覺得反正都是刷榜刷出來的,有什么值得關注的?反正都比不上國外,妄自菲薄之下,給國產大模型喝倒彩的很多。
所以在評測大模型時,業界提出應該使用更多不同來源的基準,而SuperBench 團隊來自國內頂尖學府清華大學,該團隊具有多年的大模型研究經驗,設計的 SuperBench 大模型綜合能力評測框架具備開放性、動態性、科學性以及權威性等特點,其中最重要的是測評方法要具有公平性。
按照大模型能力重點的遷移過程——從語義、對其、代碼、智能體到安全,SuperBench評測數據集包含ExtremeGLUE(語義)、NaturalCodeBench(代碼)、AlignBench(對齊)、AgentBench(智能體)和SafetyBench(安全)五個基準數據集。
下面我們來看看詳細測評結果,GLM-4 、文心一言在哪些能力上超過 Llama 3-70B:
(1)在語義測評中,整體表現:

在語義理解能力評測中,Llama 3-70B排名第6,落后Claude-3、GPT-4系列模型以及國內大模型GLM-4和文心一言4.0,距離榜首Claude-3仍有一定差距(相差8.7分),但是領先國內其他模型,整體處于第二梯隊的榜首位置。
分類表現:

Llama 3-70B在語義理解的分類評測中表現最好的是數學,分數超過GPT-4系列模型,排名第4;在閱讀理解和知識-科學兩項評測中均表現也不錯,均排名第6,其中閱讀理解和榜首差距最小,只有4.3分差距;但是在知識-常識評測分數較低,獲得60.9分,與榜首Claude-3有18.9分差距。
(2)在代碼評測中,整體表現:

在代碼編寫能力評測中,Llama 3-70B排名第7,得37.1分,差于GPT-4系列模型和Claude-3等國際一流模型,以及GLM-4、文心一言4.0和訊飛星火3.5等國內模型;和GPT-4 Turbo差距較大,分差達到了13.7分。值得一提的是,Llama 3-8B的代碼通過率超過了KimiChat網頁版、云雀大模型等國內大模型。
分類表現:

Llama 3-70B在代碼編寫能力的分類評測中均表現一般,排名6-8位,和GPT-4系列模型以及Claude-3有較大差距,其中在英文代碼指令-python評測中,Llama 3-70B和榜首的GPT-4 Turbo差距更是達到了20.3分;另外從本次評測中來看,Llama 3-70B并未表現出明顯的中英文差距。
(3)在中文對齊評測中,整體表現:

在人類對齊能力評測中,Llama 3-70B排名第7,依然差于GPT-4系列模型和Claude-3;國內模型中,除文心一言4.0和GLM-4之外,通義千問2.1也在對齊評測中略超過Llama 3-70B;但是Llama 3-70B和排在前面的各家模型差距不大,距離榜首的GPT-4網頁版僅有0.35分差距。
分類表現:

Llama 3-70B在中文推理評測中排名第7,和第一梯隊的GPT-4系列模型以及文心一言4.0相差約0.6分;在中文語言評測中排名第8,但是和GPT-4系列模型、Claude-3分差較小,處于同一梯隊,和榜首的KimiChat網頁版也只有0.23分的差距。
(4)在智能體測評中,整理表現:

在作為智能體能力評測中,國內外大模型在本能力下均表現欠佳,Llama 3-70B在橫向對比中表現不錯,僅差于Claude-3、GPT-4系列模型以及國內模型GLM-4,排名第5。
分類表現:

Llama 3-70B在數據庫(DB)、知識圖譜(KG)、網上購物(Webshop)三個評測項中均進入了top3,但是距離榜首仍有一定差距;在操作系統(OS)、網頁瀏覽(M2W)中也表現不錯 ,排名第4和第5;情境猜謎(LTP)表現得0.5分,表現相對最差。
(5)在安全測評中,整體表現:

在安全能力評測中,Llama 3-70B得86.1分,排名第7,和排在前面的文心一言4.0、GPT-4系列、GLM-4等模型分數差距不大。
分類表現:

Llama 3-70B在安全能力的各分類評測中,偏見歧視(UB)在橫向對比中表現相對最好,排名第4,其他評測排名在第7位及以后,但是和排在前面的模型分差不大,心理健康(MH)、隱私財產(PP)、身體健康(PH)均和榜首差距在3分之內。
從上述 SuperBench 測評結果上看,和國內大模型對比,Llama 3-70B 在五項評測中超過了大多數國內模型,只落敗于 GLM-4 和文心一言,而打敗 Llama 3-70B 因此躋身第一梯隊的智譜 GLM-4,在最關鍵的語義理解、智能體能力上,排名國內第一,力壓一眾選手。
而智譜在過去一年里也是國內表現最為突出的大模型創業公司——技術突破和商業化都取得了領先的成績。
過去一年里,中國誕生了多個大模型獨角獸,而智譜是國內估值最快超過百億人民幣的公司之一。
其贏得大量資本青睞主要是因為它的 ChatGLM 模型——過去一年里,智譜以平均三個月的速度發布了三代基座大模型ChatGLM、ChatGLM2、ChatGLM3,2024年初智譜又發布了新一代基座大模型 GLM-4,性能緊逼 GPT-4。
而這也跟它的戰略定位一致——全面對標OpenAI。
而上述 SuperBench 的測評結果再一次量化了 GLM-4 模型的能力,超過 Llama 3-70B ,逼近 GPT-4,躋身全球模型第一梯隊。
分析智譜的發展歷史和現狀可以發現,智譜是一家將產學研結合地不錯的公司。
在學術上,自推出新一代基座模型 GLM-4 之后,智譜已陸續發布了不少研究成果,涉及 LLM、多模態、長文本、對齊、評測、推理加速、Agent 等大模型產業的各個層面:
例如,評估大模型涌現能力的新視角——在大語言模型的研究和開發中,一個關鍵的探索點是如何理解和提升模型的“涌現能力”,傳統觀點認為,模型的大小和訓練數據量是提升這種能力的決定性因素。而智譜發布的論文《Understanding Emergent Abilities of Language Models from the Loss Perspective》提出了一個新的視角:Loss 才是涌現的關鍵,而非模型參數。
智譜AI通過分析多個不同規模和數據量的語言模型,在多個英文和中文數據集上的表現,發現低預訓練損失與模型在實際任務中的高性能呈負相關。這一發現不僅挑戰了以往的常識,還為未來模型的優化提供了新的方向,即通過降低預訓練損失來激發和提升模型的涌現能力。這種洞見為AI研究者和開發者在模型設計和評估中引入新的評價指標和方法提供了理論依據。
還有,將GLM-4 的 RLHF 技術公開,大語言模型對齊是關涉AI控制與AI安全的重要問題,只有確保模型的行為和輸出與人類價值觀和意圖一致,才能讓AI系統更安全、負責任且有效地服務于社會。對此,智譜AI開發了名為ChatGLM-RLHF的技術,通過整合人類的偏好來訓練語言模型,使其產生更受歡迎的回答。
最后,智譜的大模型技術和學術研究都轉化成了商業化成果。
今年3月,在 ChatGLM 的一周年期,智譜對外發布了一批商業化案例,并公布了其在商業化上取得了遠超預期的成績,包括圈定了超過 2000 家生態合作伙伴,1000 家規?;瘧?,與超過 200 家客戶進行了深度共創。
而對比其他模型廠商,據了解,至今很多大模型公司依然沒有找到合適的商業化路徑,對比之下,智譜的商業化至少領先國內半年。
智譜CEO張鵬曾多次表達過這樣一種觀點:大模型商業化最大的攔路虎還是在技術,如果智譜真已經做到了 GPT-4 或者 GPT-5 的水平,很多商業化上的問題,如效果不好、價格高昂,甚至連商業模型都不用再考慮,只提供 API 就行。
這個說法同樣適合整個大模型行業,智譜能在商業化上做到領先半年,其中一個最重要的因素就是其 ChatGLM 模型所表現出來的領先性。
學術研究、模型迭代不斷賦能商業化,智譜今天的成績也告訴行業,大模型行業產學研的性質,決定了那些在模型、商業、學術上多條腿走路的公司,勢必將會走得更穩固。
2023年 ChatGPT 引爆中文互聯網,由此引發了國內外大模型創業潮。但中國的大模型并非無根之木,無源之水,只會跟隨國外。
早在2021年,五道口智源人工智能研究院誕生了中國第一個萬億大模型“悟道”,由此開啟了國產大模型的研究之路。
同樣,經過過去一年的奮力追趕和學習,如GLM-4、文心一言這樣的國產大模型打敗了最強開源模型Llama 3,躋身全球競爭第一梯隊,為只會跟隨、模仿的國產技術正名。
過去一直強調要睜開眼看世界,學習國外,但大模型時代,看看國產大模型過去一年的變化,我們更多缺少的是正視國產技術的進步。
一位業內資深人士曾發出過如此感嘆:明明國內的大模型公司也有很多技術創新,為什么大家只愿意關注國外,最后就變成了國外火了、國內才被注意到?
例如大模型初創公司智子引擎于2023年5月發表在arXiv上的論文研究VDT,跟2024年OpenAI發布的Sora“大撞車”——Sora背后的架構,與這支團隊快1年前發表的論文提出的基于Transformer的Video統一生成框架,“可以說是幾乎一模一樣”。
Sora出世前,他們拿著這篇如今被ICLR 2024接收的論文VDT,十分費勁地為投資人、求知者講了大半年,卻處處碰壁。
春節后,Sora成為新晉頂流,打電話來約見團隊的投資人排起了長隊,都是要學習Sora、學習團隊論文成果。
隨著Sora 爆火,DiT架構大受關注,而國產多模態初創公司深數科技在2022年9月,便研發出了全球首個 Diffusion Transformer 架構 U-ViT 網絡架構;
國產大模型創業公司面壁智能的Scaling Prediction,在世界范圍內都能排在前列,能夠和OpenAI比肩,甚至不輸OpenAI;
國產大模型技術的創新性和領先性并不輸國外,這樣的例子還有很多。
所謂士別三日,當刮目相看。希望我們能多關注國產技術的創新,多多擁護國產技術。
本文作者(vx:zzjj752254)長期關注AI大模型領域的人、公司與行業動態,歡迎交流。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。