GPT-5 放棄追求智能上限了？

本文作者：梁丙鑒

2025-09-09 19:00

導(dǎo)語(yǔ)：智能提升有限，轉(zhuǎn)向刷任務(wù)分了。

雷峰網(wǎng)訊 GPT-5 發(fā)布，雖然靠著“OpenAI”的名氣也刷了一波流量，但在 AI 科技評(píng)論看來(lái)，GPT-5 的結(jié)果是讓人失望的。

原因在于：Sam Altman 對(duì) GPT-5 的“推銷(xiāo)”已經(jīng)全面轉(zhuǎn)向現(xiàn)有的模型能力可以在多少個(gè)（我們知道是“很多”）任務(wù)上性能提升幾個(gè)點(diǎn)，而非基礎(chǔ)大模型的能力在現(xiàn)有技術(shù)路線上朝著“智能進(jìn)化”的方向做了多少突破——以至于正常發(fā)布會(huì)看下來(lái)，只是“Scaling Law 遇到瓶頸”的又一有力佐證。

唯一值得樂(lè)觀的點(diǎn)是：GPT-5 告訴了我們，OpenAI 對(duì)基礎(chǔ)模型的能力突破也沒(méi)招了，而下一代基礎(chǔ)模型的高地戰(zhàn)、每一個(gè)科研團(tuán)隊(duì)都有同等的機(jī)會(huì)。

大模型發(fā)展到現(xiàn)在，不難發(fā)現(xiàn)，全球在 AGI 技術(shù)創(chuàng)新上的方向最終歸納到了兩個(gè)點(diǎn)：一是多任務(wù)表現(xiàn)（但這并不脫離“專(zhuān)有數(shù)據(jù)+預(yù)訓(xùn)練”的“背誦”范式），另一個(gè)是自主思考、學(xué)習(xí)與推理能力。而這次，時(shí)隔一年多姍姍來(lái)遲的 GPT-5，顯然是將落腳點(diǎn)放在了前者。

雖然走“白盒路線”的馬毅被認(rèn)為離經(jīng)叛道，但其提出的“知識(shí)不等同于智能”的觀點(diǎn)之所以在業(yè)內(nèi)能有所擁躉，原因正是現(xiàn)有大模型發(fā)展的瓶頸突顯。通用人工智能之路漫漫，GPT-5 沒(méi)有表現(xiàn)出持續(xù)追求智能上限的野心，是否側(cè)面也反映了大模型之于 AGI，已經(jīng)“江郎才盡”了？

這也迫使我們必須重新審視：一個(gè)能夠自主學(xué)習(xí)、思考與推理的人工智能模型，接下來(lái)要如何突破？

據(jù) AI 科技評(píng)論與多位業(yè)內(nèi)人士的交流，這確實(shí)是目前基礎(chǔ)模型最難的問(wèn)題，且并非單靠多任務(wù)熟練、多模態(tài)大模型就能突破。

一位資深研究員向 AI 科技評(píng)論舉過(guò)這樣一個(gè)生動(dòng)的例子：“如果以人為類(lèi)比，一個(gè)人即使瞎了、聾了、啞了，TA 依然是一個(gè)人，因?yàn)?TA 的大腦依然在感知、思考并與世界交互。”

換言之，雖然如今有觀點(diǎn)認(rèn)為，通過(guò)增加多模態(tài)的信息能增強(qiáng) AI 模型的智能水平，但一個(gè)殘忍的事實(shí)是：至今依然沒(méi)有足夠的研究結(jié)果表明，在現(xiàn)有架構(gòu)的基礎(chǔ)上，通過(guò)向模型注入更多模態(tài)的信息能帶來(lái)“智能的涌現(xiàn)”。同樣，多任務(wù)處理性能提升，本質(zhì)其實(shí)是應(yīng)用工程的創(chuàng)新，而非基礎(chǔ)研究的突破。

GPT-5 的發(fā)布確實(shí)取得了一系列出色的成果，但或許也提醒了此刻已到 AGI 的反思關(guān)口。

支持調(diào)用 GPT 系列子模型，高頻任務(wù)針對(duì)性?xún)?yōu)化

寫(xiě)作、編程、數(shù)學(xué)能力、健康管理、視覺(jué)感知、指令遵循、工具調(diào)用……OpenAI 這場(chǎng)深夜發(fā)布會(huì)像是才藝表演，讓 GPT-5 在常見(jiàn)任務(wù)場(chǎng)景都展示了一遍。在模型智能水平之外，OpenAI 此次更新走的更像是工程路線，結(jié)果以實(shí)用為導(dǎo)向。Sam Altman 特意指出，針對(duì) ChatGPT 最常見(jiàn)的三種任務(wù)，即編程、寫(xiě)作和健康管理，GPT-5 均進(jìn)行了專(zhuān)門(mén)的優(yōu)化。

作為大模型的兵家必爭(zhēng)之地，GPT-5 的 Coding 能力首先受到了高度關(guān)注。OpenAI 稱(chēng)其為自家迄今為止最強(qiáng)大的編程模型，在“復(fù)雜的前端生成和調(diào)試大型代碼庫(kù)方面表現(xiàn)尤為出色”。有用例顯示，GPT-5 只需幾分鐘就能生成一款帶音樂(lè)、計(jì)分的小游戲。而此前也有早期測(cè)試者表示，GPT-5 的前端設(shè)計(jì)對(duì)于間距、排版和留白等元素的把握有了更好的表現(xiàn)。

GPT-5 放棄追求智能上限了？

Prompt: Create a single-page app in a single HTML file with the following requirements: 提示：在一個(gè) HTML 文件中創(chuàng)建一個(gè)單頁(yè)應(yīng)用程序，滿足以下要求：

Name: Jumping Ball Runner

名稱(chēng)：跳躍球跑者

Goal: Jump over obstacles to survive as long as possible.

目標(biāo)：跳過(guò)障礙物，盡可能長(zhǎng)時(shí)間生存。

Features: Increasing speed, high score tracking, retry button, and funny sounds for actions and events.

特點(diǎn)：速度遞增、高分記錄、重試按鈕、以及動(dòng)作和事件相關(guān)的趣味音效。

The UI should be colorful, with parallax scrolling backgrounds.

界面應(yīng)色彩豐富，帶有視差滾動(dòng)背景。

The characters should look cartoonish and be fun to watch.

角色應(yīng)該看起來(lái)像卡通一樣，并且很有趣。

The game should be enjoyable for everyone.

游戲應(yīng)該讓每個(gè)人都感到愉快。

寫(xiě)作能力方面，用戶(hù)的日常任務(wù)多集中在起草和編輯報(bào)告、郵件或撰寫(xiě)備忘錄上。OpenAI 指出，相較于嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)論文，這些文本的結(jié)構(gòu)更加模糊，需要將模糊的想法轉(zhuǎn)化為清晰易讀的文字。比如下面這個(gè)婚禮致辭的例子：

GPT-5 放棄追求智能上限了？

語(yǔ)言自然流暢，使用意象和比喻增加文學(xué)性，適當(dāng)埋梗。以及更重要的，沒(méi)有把婚姻比作某種量子物理現(xiàn)象。

OpenAI 在第一時(shí)間放出了 GPT-5 的多項(xiàng)基準(zhǔn)測(cè)試結(jié)果，最引人注目的是大模型競(jìng)技場(chǎng) LMArena。經(jīng)過(guò)對(duì)諸多任務(wù)場(chǎng)景的針對(duì)性?xún)?yōu)化，GPT-5 已經(jīng)在所有細(xì)分類(lèi)目中登頂。

數(shù)學(xué)能力方面，GPT-5 在 IME 等三項(xiàng)基準(zhǔn)測(cè)試中排名第一。

SWE-bench 驗(yàn)證測(cè)試達(dá)到 74.9%，Aider Polyglot 測(cè)試達(dá)到 88%，GPT-5 的現(xiàn)實(shí)世界編程能力力壓此前的 o3 和 4o。

多模態(tài)理解能力也在 GPT-5 發(fā)力之列，MMMU 測(cè)試得分達(dá)到 84.2%，意味著 GPT-5 在執(zhí)行圖標(biāo)解讀等任務(wù)時(shí)可以更準(zhǔn)確地處理圖像和其它非文本輸入。

指令遵循和工具調(diào)用能力也是模型實(shí)用性的重要維度。GPT-5 在 Scale MultiChallenge 等基準(zhǔn)測(cè)試上也取得了良好表現(xiàn)，這意味著它在處理復(fù)雜、變化的任務(wù)時(shí)將更忠實(shí)地遵循用戶(hù)指令，并利用其可用的工具完成更多端到端的工作。

在性能全面提升的同時(shí)，GPT-5 的推理成本還降低了。開(kāi)啟思考模式的 GPT-5 在視覺(jué)推理、代理編程和研究生水平科學(xué)問(wèn)題解決等能力方面，輸出的 token 數(shù)量比 OpenAI o3 減少了 50-80%。

值得注意的是，GPT-5 還被賦予了調(diào)度子模型的能力，堪稱(chēng) GPT 全家桶的入口。據(jù) OpenAI 官方介紹，GPT-5 中包含一個(gè)實(shí)時(shí)路由器，可以根據(jù)對(duì)話類(lèi)型、復(fù)雜度、工具需求和用戶(hù)的明確意圖，快速?zèng)Q定由哪個(gè)模型響應(yīng)用戶(hù)指令。

OpenAI 此前發(fā)布的眾多模型在使用場(chǎng)景上各有不同，模型能力及 API 價(jià)格的區(qū)別確實(shí)值得高頻用戶(hù)在選型上多花心思，但也平添了用戶(hù)的使用成本。GPT-5 將終結(jié)這一局面，其實(shí)時(shí)路由器通過(guò)真實(shí)信號(hào)不斷訓(xùn)練，對(duì)用戶(hù)切換模型的行為、對(duì)回答的偏好以及測(cè)得的正確性進(jìn)行學(xué)習(xí)，并且上述指標(biāo)都會(huì)隨時(shí)間推移不斷提升。

在智能水平未見(jiàn)明顯提升的情況下，這讓 GPT-5 的定位更像是一個(gè)跨越不同場(chǎng)景的任務(wù)執(zhí)行專(zhuān)家。

探索智能，不如好用

實(shí)用性無(wú)疑是此次 GPT-5 更新的一大關(guān)鍵詞。相比起展示自身對(duì)于智能上限的探索，OpenAI 花了大力氣向用戶(hù)證明，GPT-5 已經(jīng)是一個(gè)可靠的助手：更少的幻覺(jué)，更少的犟嘴。

首先是模型幻覺(jué)的問(wèn)題被顯著優(yōu)化。在啟用網(wǎng)絡(luò)搜索的情況下，GPT-5 的回應(yīng)比 GPT-4o 包含事實(shí)性錯(cuò)誤的概率降低了約 45%，而在思考過(guò)程中，GPT-5 的回應(yīng)比 OpenAI o3 包含事實(shí)性錯(cuò)誤的概率降低了約 80%。

這一改進(jìn)源于 OpenAI 采取了新增的評(píng)估方法，來(lái)測(cè)試模型在處理復(fù)雜開(kāi)放式問(wèn)題時(shí)的可靠性。研究團(tuán)隊(duì)在兩個(gè)公開(kāi)的事實(shí)性基準(zhǔn)測(cè)試上，測(cè)量了 GPT-5 在在思考開(kāi)放式事實(shí)性提示時(shí)的幻覺(jué)率。在測(cè)試結(jié)果中，思考模式下 GPT-5 的幻覺(jué)相較 OpenAI o3 減少了約 6 倍。

這意味著 GPT-5 在生成持續(xù)準(zhǔn)確的長(zhǎng)格式內(nèi)容方面取得了明顯的進(jìn)步，同時(shí)也會(huì)減少模型不懂裝懂的可能。

GPT-5 會(huì)更誠(chéng)實(shí)地向用戶(hù)傳達(dá)其行為和能力，特別是對(duì)于那些不可能完成、未明確指定或缺少關(guān)鍵工具的任務(wù)，GPT-5 會(huì)清晰地表達(dá)其局限性，而非通過(guò)謊報(bào)任務(wù)成功完成或“知錯(cuò)不改”而以求在訓(xùn)練中得到獎(jiǎng)勵(lì)。目前，GPT-5 的欺騙率已從o3 的 4.8％降低到了 2.1％。

GPT-4o 此前曾因?yàn)椤罢~媚”的問(wèn)題引起熱議。這不僅意味著對(duì)用戶(hù)的無(wú)條件順從，Antropic 的研究顯示，其實(shí)質(zhì)是 AI 為了對(duì)話輪次、用戶(hù)停留時(shí)長(zhǎng)等短期指標(biāo)，而犧牲真實(shí)性和準(zhǔn)確性的長(zhǎng)期價(jià)值。

此次 GPT-5 發(fā)布，OpenAI 表示已經(jīng)在訓(xùn)練過(guò)程中開(kāi)發(fā)了新的評(píng)估方法來(lái)衡量奉承程度，并且直接向 GPT-5 展示“過(guò)度認(rèn)同”的例子，教導(dǎo)它不要這樣做。OpenAI 還設(shè)計(jì)了專(zhuān)門(mén)的提示詞誘使 GPT-5 扮演一個(gè)馬屁精的角色，但經(jīng)過(guò)優(yōu)化后，其奉承回復(fù)的比例從 14.5％顯著降低至不到 6％。

在可感知的維度，用戶(hù)會(huì)發(fā)現(xiàn) GPT-5 變得不像從前那樣熱衷于附和、愛(ài)用表情符號(hào)，并且更加體貼。在交互體驗(yàn)上，研究團(tuán)隊(duì)希望 GPT-5 更像用戶(hù)一個(gè)“擁有博士學(xué)位水平的樂(lè)于助人的朋友”。

“雖然減少奉承有時(shí)會(huì)降低用戶(hù)滿意度，但我們所做的改進(jìn)帶來(lái)了其它可衡量的提升，因此用戶(hù)能夠繼續(xù)進(jìn)行高質(zhì)量、有建設(shè)性的對(duì)話。”O(jiān)penAI 表示。

自今年 2 月 GPT-4.5 發(fā)布之后，GPT-5 便被寄予下一代大模型的厚望，然而這中間卻出現(xiàn)了諸多始料未及的難題。技術(shù)路徑方面，高質(zhì)量數(shù)據(jù)源耗竭導(dǎo)致 Scaling Law 撞墻，模型智力亟需尋求新的增長(zhǎng)增長(zhǎng)點(diǎn)。組織架構(gòu)上，OpenAI 向商業(yè)實(shí)體的轉(zhuǎn)型幾經(jīng)波折，中間伴隨著 IIya Sutskever、Mira Murati 等多位核心人物的出走。近期硅谷的人才大戰(zhàn)中 OpenAI 也無(wú)法置身局外，扎克伯格拿著“天才名單”高薪挖人之下，OpenAI 又經(jīng)歷了大規(guī)模人才流失。

GPT-5 發(fā)布前夕，Sam Altman 在自己的社交媒體上發(fā)布了一張不知所云的照片，有人猜測(cè)是用《星球大戰(zhàn)》中的死星暗示 GPT-5 的強(qiáng)大。但想到過(guò)去半年的種種，難免有守得云開(kāi)見(jiàn)月明的感覺(jué)。

GPT-5 放棄追求智能上限了？

OpenAI 此次更新，GPT-5 的表現(xiàn)也確實(shí)令人眼前一亮。作為一款實(shí)用的工具，它在基準(zhǔn)測(cè)試和實(shí)際應(yīng)用中的表現(xiàn)均無(wú)可忽視，編程水平可以勝任更多端到端任務(wù)，長(zhǎng)文本生成的連貫性和一致性更加自然，對(duì)復(fù)雜、抽象問(wèn)題的推理能力有了顯著進(jìn)步。此外 GPT-5 的情境理解能力也得到了顯著提升，能夠更精確地捕捉文本中微妙的情感變化，這都意味著它更有“人味”，在交互中更貼近了我們對(duì) AGI 的想象。

但 OpenAI 目前并未放出 GPT-5 的參數(shù)規(guī)模、模型架構(gòu)等更多信息，后者在任務(wù)執(zhí)行能力上的提升，更像是在現(xiàn)有技術(shù)框架內(nèi)的優(yōu)化，而非革命性的進(jìn)步。早在 GPT-5 發(fā)布之前，亦有早期測(cè)試者對(duì)媒體表示，GPT-5 在技術(shù)水平上并未實(shí)現(xiàn) GPT-4 之于 GPT-3 的飛躍。

“下一代大模型”靠小步快跑就可以抵達(dá)嗎？模型架構(gòu)優(yōu)化、訓(xùn)練效果提升、新的數(shù)據(jù)源……模型智力水平新的源動(dòng)力在哪？GPT-5 發(fā)布之后，這些問(wèn)題更加尖銳。而好消息是，諸多模型團(tuán)隊(duì)重新站在了同一條起跑線上。

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))文章

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

梁丙鑒

編輯

發(fā)私信

當(dāng)月熱門(mén)文章