<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
      此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
      業(yè)界 正文
      發(fā)私信給梁丙鑒
      發(fā)送

      0

      GPT-5 放棄追求智能上限了?

      本文作者: 梁丙鑒   2025-09-09 19:00
      導(dǎo)語(yǔ):智能提升有限,轉(zhuǎn)向刷任務(wù)分了。

      雷峰網(wǎng)訊 GPT-5 發(fā)布,雖然靠著“OpenAI”的名氣也刷了一波流量,但在 AI 科技評(píng)論看來(lái),GPT-5 的結(jié)果是讓人失望的。

      原因在于:Sam Altman 對(duì) GPT-5 的“推銷(xiāo)”已經(jīng)全面轉(zhuǎn)向現(xiàn)有的模型能力可以在多少個(gè)(我們知道是“很多”)任務(wù)上性能提升幾個(gè)點(diǎn),而非基礎(chǔ)大模型的能力在現(xiàn)有技術(shù)路線上朝著“智能進(jìn)化”的方向做了多少突破——以至于正常發(fā)布會(huì)看下來(lái),只是“Scaling Law 遇到瓶頸”的又一有力佐證。

      唯一值得樂(lè)觀的點(diǎn)是:GPT-5 告訴了我們,OpenAI 對(duì)基礎(chǔ)模型的能力突破也沒(méi)招了,而下一代基礎(chǔ)模型的高地戰(zhàn)、每一個(gè)科研團(tuán)隊(duì)都有同等的機(jī)會(huì)。

      大模型發(fā)展到現(xiàn)在,不難發(fā)現(xiàn),全球在 AGI 技術(shù)創(chuàng)新上的方向最終歸納到了兩個(gè)點(diǎn):一是多任務(wù)表現(xiàn)(但這并不脫離“專(zhuān)有數(shù)據(jù)+預(yù)訓(xùn)練”的“背誦”范式),另一個(gè)是自主思考、學(xué)習(xí)與推理能力。而這次,時(shí)隔一年多姍姍來(lái)遲的 GPT-5,顯然是將落腳點(diǎn)放在了前者。

      雖然走“白盒路線”的馬毅被認(rèn)為離經(jīng)叛道,但其提出的“知識(shí)不等同于智能”的觀點(diǎn)之所以在業(yè)內(nèi)能有所擁躉,原因正是現(xiàn)有大模型發(fā)展的瓶頸突顯。通用人工智能之路漫漫,GPT-5 沒(méi)有表現(xiàn)出持續(xù)追求智能上限的野心,是否側(cè)面也反映了大模型之于 AGI,已經(jīng)“江郎才盡”了?

      這也迫使我們必須重新審視:一個(gè)能夠自主學(xué)習(xí)、思考與推理的人工智能模型,接下來(lái)要如何突破?

      據(jù) AI 科技評(píng)論與多位業(yè)內(nèi)人士的交流,這確實(shí)是目前基礎(chǔ)模型最難的問(wèn)題,且并非單靠多任務(wù)熟練、多模態(tài)大模型就能突破。

      一位資深研究員向 AI 科技評(píng)論舉過(guò)這樣一個(gè)生動(dòng)的例子:“如果以人為類(lèi)比,一個(gè)人即使瞎了、聾了、啞了,TA 依然是一個(gè)人,因?yàn)?TA 的大腦依然在感知、思考并與世界交互。”

      換言之,雖然如今有觀點(diǎn)認(rèn)為,通過(guò)增加多模態(tài)的信息能增強(qiáng) AI 模型的智能水平,但一個(gè)殘忍的事實(shí)是:至今依然沒(méi)有足夠的研究結(jié)果表明,在現(xiàn)有架構(gòu)的基礎(chǔ)上,通過(guò)向模型注入更多模態(tài)的信息能帶來(lái)“智能的涌現(xiàn)”。同樣,多任務(wù)處理性能提升,本質(zhì)其實(shí)是應(yīng)用工程的創(chuàng)新,而非基礎(chǔ)研究的突破。

      GPT-5 的發(fā)布確實(shí)取得了一系列出色的成果,但或許也提醒了此刻已到 AGI 的反思關(guān)口。

      支持調(diào)用 GPT 系列子模型,高頻任務(wù)針對(duì)性?xún)?yōu)化

      寫(xiě)作、編程、數(shù)學(xué)能力、健康管理、視覺(jué)感知、指令遵循、工具調(diào)用……OpenAI 這場(chǎng)深夜發(fā)布會(huì)像是才藝表演,讓 GPT-5 在常見(jiàn)任務(wù)場(chǎng)景都展示了一遍。在模型智能水平之外,OpenAI 此次更新走的更像是工程路線,結(jié)果以實(shí)用為導(dǎo)向。Sam Altman 特意指出,針對(duì) ChatGPT 最常見(jiàn)的三種任務(wù),即編程、寫(xiě)作和健康管理,GPT-5 均進(jìn)行了專(zhuān)門(mén)的優(yōu)化。

      作為大模型的兵家必爭(zhēng)之地,GPT-5 的 Coding 能力首先受到了高度關(guān)注。OpenAI 稱(chēng)其為自家迄今為止最強(qiáng)大的編程模型,在“復(fù)雜的前端生成和調(diào)試大型代碼庫(kù)方面表現(xiàn)尤為出色”。有用例顯示,GPT-5 只需幾分鐘就能生成一款帶音樂(lè)、計(jì)分的小游戲。而此前也有早期測(cè)試者表示,GPT-5 的前端設(shè)計(jì)對(duì)于間距、排版和留白等元素的把握有了更好的表現(xiàn)。

      GPT-5 放棄追求智能上限了?

      Prompt: Create a single-page app in a single HTML file with the following requirements: 提示:在一個(gè) HTML 文件中創(chuàng)建一個(gè)單頁(yè)應(yīng)用程序,滿足以下要求:

      Name: Jumping Ball Runner

      名稱(chēng):跳躍球跑者

      Goal: Jump over obstacles to survive as long as possible.

      目標(biāo):跳過(guò)障礙物,盡可能長(zhǎng)時(shí)間生存。

      Features: Increasing speed, high score tracking, retry button, and funny sounds for actions and events.

      特點(diǎn):速度遞增、高分記錄、重試按鈕、以及動(dòng)作和事件相關(guān)的趣味音效。

      The UI should be colorful, with parallax scrolling backgrounds.

      界面應(yīng)色彩豐富,帶有視差滾動(dòng)背景。

      The characters should look cartoonish and be fun to watch.

      角色應(yīng)該看起來(lái)像卡通一樣,并且很有趣。

      The game should be enjoyable for everyone.

      游戲應(yīng)該讓每個(gè)人都感到愉快。

      寫(xiě)作能力方面,用戶(hù)的日常任務(wù)多集中在起草和編輯報(bào)告、郵件或撰寫(xiě)備忘錄上。OpenAI 指出,相較于嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)論文,這些文本的結(jié)構(gòu)更加模糊,需要將模糊的想法轉(zhuǎn)化為清晰易讀的文字。比如下面這個(gè)婚禮致辭的例子:

      GPT-5 放棄追求智能上限了?

      語(yǔ)言自然流暢,使用意象和比喻增加文學(xué)性,適當(dāng)埋梗。以及更重要的,沒(méi)有把婚姻比作某種量子物理現(xiàn)象。

      OpenAI 在第一時(shí)間放出了 GPT-5 的多項(xiàng)基準(zhǔn)測(cè)試結(jié)果,最引人注目的是大模型競(jìng)技場(chǎng) LMArena。經(jīng)過(guò)對(duì)諸多任務(wù)場(chǎng)景的針對(duì)性?xún)?yōu)化,GPT-5 已經(jīng)在所有細(xì)分類(lèi)目中登頂。

      數(shù)學(xué)能力方面,GPT-5 在 IME 等三項(xiàng)基準(zhǔn)測(cè)試中排名第一。

      SWE-bench 驗(yàn)證測(cè)試達(dá)到 74.9%,Aider Polyglot 測(cè)試達(dá)到 88%,GPT-5 的現(xiàn)實(shí)世界編程能力力壓此前的 o3 和 4o。

      多模態(tài)理解能力也在 GPT-5 發(fā)力之列,MMMU 測(cè)試得分達(dá)到 84.2%,意味著 GPT-5 在執(zhí)行圖標(biāo)解讀等任務(wù)時(shí)可以更準(zhǔn)確地處理圖像和其它非文本輸入。

      指令遵循和工具調(diào)用能力也是模型實(shí)用性的重要維度。GPT-5 在 Scale MultiChallenge 等基準(zhǔn)測(cè)試上也取得了良好表現(xiàn),這意味著它在處理復(fù)雜、變化的任務(wù)時(shí)將更忠實(shí)地遵循用戶(hù)指令,并利用其可用的工具完成更多端到端的工作。

      在性能全面提升的同時(shí),GPT-5 的推理成本還降低了。開(kāi)啟思考模式的 GPT-5 在視覺(jué)推理、代理編程和研究生水平科學(xué)問(wèn)題解決等能力方面,輸出的 token 數(shù)量比 OpenAI o3 減少了 50-80%。

      值得注意的是,GPT-5 還被賦予了調(diào)度子模型的能力,堪稱(chēng) GPT 全家桶的入口。據(jù) OpenAI 官方介紹,GPT-5 中包含一個(gè)實(shí)時(shí)路由器,可以根據(jù)對(duì)話類(lèi)型、復(fù)雜度、工具需求和用戶(hù)的明確意圖,快速?zèng)Q定由哪個(gè)模型響應(yīng)用戶(hù)指令。

      OpenAI 此前發(fā)布的眾多模型在使用場(chǎng)景上各有不同,模型能力及 API 價(jià)格的區(qū)別確實(shí)值得高頻用戶(hù)在選型上多花心思,但也平添了用戶(hù)的使用成本。GPT-5 將終結(jié)這一局面,其實(shí)時(shí)路由器通過(guò)真實(shí)信號(hào)不斷訓(xùn)練,對(duì)用戶(hù)切換模型的行為、對(duì)回答的偏好以及測(cè)得的正確性進(jìn)行學(xué)習(xí),并且上述指標(biāo)都會(huì)隨時(shí)間推移不斷提升。

      在智能水平未見(jiàn)明顯提升的情況下,這讓 GPT-5 的定位更像是一個(gè)跨越不同場(chǎng)景的任務(wù)執(zhí)行專(zhuān)家。

      探索智能,不如好用

      實(shí)用性無(wú)疑是此次 GPT-5 更新的一大關(guān)鍵詞。相比起展示自身對(duì)于智能上限的探索,OpenAI 花了大力氣向用戶(hù)證明,GPT-5 已經(jīng)是一個(gè)可靠的助手:更少的幻覺(jué),更少的犟嘴。

      首先是模型幻覺(jué)的問(wèn)題被顯著優(yōu)化。在啟用網(wǎng)絡(luò)搜索的情況下,GPT-5 的回應(yīng)比 GPT-4o 包含事實(shí)性錯(cuò)誤的概率降低了約 45%,而在思考過(guò)程中,GPT-5 的回應(yīng)比 OpenAI o3 包含事實(shí)性錯(cuò)誤的概率降低了約 80%。

      這一改進(jìn)源于 OpenAI 采取了新增的評(píng)估方法,來(lái)測(cè)試模型在處理復(fù)雜開(kāi)放式問(wèn)題時(shí)的可靠性。研究團(tuán)隊(duì)在兩個(gè)公開(kāi)的事實(shí)性基準(zhǔn)測(cè)試上,測(cè)量了 GPT-5 在在思考開(kāi)放式事實(shí)性提示時(shí)的幻覺(jué)率。在測(cè)試結(jié)果中,思考模式下 GPT-5 的幻覺(jué)相較 OpenAI o3 減少了約 6 倍。

      這意味著 GPT-5 在生成持續(xù)準(zhǔn)確的長(zhǎng)格式內(nèi)容方面取得了明顯的進(jìn)步,同時(shí)也會(huì)減少模型不懂裝懂的可能。

      GPT-5 會(huì)更誠(chéng)實(shí)地向用戶(hù)傳達(dá)其行為和能力,特別是對(duì)于那些不可能完成、未明確指定或缺少關(guān)鍵工具的任務(wù),GPT-5 會(huì)清晰地表達(dá)其局限性,而非通過(guò)謊報(bào)任務(wù)成功完成或“知錯(cuò)不改”而以求在訓(xùn)練中得到獎(jiǎng)勵(lì)。目前,GPT-5 的欺騙率已從o3 的 4.8% 降低到了 2.1%。

      GPT-4o 此前曾因?yàn)椤罢~媚”的問(wèn)題引起熱議。這不僅意味著對(duì)用戶(hù)的無(wú)條件順從,Antropic 的研究顯示,其實(shí)質(zhì)是 AI 為了對(duì)話輪次、用戶(hù)停留時(shí)長(zhǎng)等短期指標(biāo),而犧牲真實(shí)性和準(zhǔn)確性的長(zhǎng)期價(jià)值。

      此次 GPT-5 發(fā)布,OpenAI 表示已經(jīng)在訓(xùn)練過(guò)程中開(kāi)發(fā)了新的評(píng)估方法來(lái)衡量奉承程度,并且直接向 GPT-5 展示“過(guò)度認(rèn)同”的例子,教導(dǎo)它不要這樣做。OpenAI 還設(shè)計(jì)了專(zhuān)門(mén)的提示詞誘使 GPT-5 扮演一個(gè)馬屁精的角色,但經(jīng)過(guò)優(yōu)化后,其奉承回復(fù)的比例從 14.5% 顯著降低至不到 6%。

      在可感知的維度,用戶(hù)會(huì)發(fā)現(xiàn) GPT-5 變得不像從前那樣熱衷于附和、愛(ài)用表情符號(hào),并且更加體貼。在交互體驗(yàn)上,研究團(tuán)隊(duì)希望 GPT-5 更像用戶(hù)一個(gè)“擁有博士學(xué)位水平的樂(lè)于助人的朋友”。

      “雖然減少奉承有時(shí)會(huì)降低用戶(hù)滿意度,但我們所做的改進(jìn)帶來(lái)了其它可衡量的提升,因此用戶(hù)能夠繼續(xù)進(jìn)行高質(zhì)量、有建設(shè)性的對(duì)話。”O(jiān)penAI 表示。

      自今年 2 月 GPT-4.5 發(fā)布之后,GPT-5 便被寄予下一代大模型的厚望,然而這中間卻出現(xiàn)了諸多始料未及的難題。技術(shù)路徑方面,高質(zhì)量數(shù)據(jù)源耗竭導(dǎo)致 Scaling Law 撞墻,模型智力亟需尋求新的增長(zhǎng)增長(zhǎng)點(diǎn)。組織架構(gòu)上,OpenAI 向商業(yè)實(shí)體的轉(zhuǎn)型幾經(jīng)波折,中間伴隨著 IIya Sutskever、Mira Murati 等多位核心人物的出走。近期硅谷的人才大戰(zhàn)中 OpenAI 也無(wú)法置身局外,扎克伯格拿著“天才名單”高薪挖人之下,OpenAI 又經(jīng)歷了大規(guī)模人才流失。

      GPT-5 發(fā)布前夕,Sam Altman 在自己的社交媒體上發(fā)布了一張不知所云的照片,有人猜測(cè)是用《星球大戰(zhàn)》中的死星暗示 GPT-5 的強(qiáng)大。但想到過(guò)去半年的種種,難免有守得云開(kāi)見(jiàn)月明的感覺(jué)。

      GPT-5 放棄追求智能上限了?

      OpenAI 此次更新,GPT-5 的表現(xiàn)也確實(shí)令人眼前一亮。作為一款實(shí)用的工具,它在基準(zhǔn)測(cè)試和實(shí)際應(yīng)用中的表現(xiàn)均無(wú)可忽視,編程水平可以勝任更多端到端任務(wù),長(zhǎng)文本生成的連貫性和一致性更加自然,對(duì)復(fù)雜、抽象問(wèn)題的推理能力有了顯著進(jìn)步。此外 GPT-5 的情境理解能力也得到了顯著提升,能夠更精確地捕捉文本中微妙的情感變化,這都意味著它更有“人味”,在交互中更貼近了我們對(duì) AGI 的想象。

      但 OpenAI 目前并未放出 GPT-5 的參數(shù)規(guī)模、模型架構(gòu)等更多信息,后者在任務(wù)執(zhí)行能力上的提升,更像是在現(xiàn)有技術(shù)框架內(nèi)的優(yōu)化,而非革命性的進(jìn)步。早在 GPT-5 發(fā)布之前,亦有早期測(cè)試者對(duì)媒體表示,GPT-5 在技術(shù)水平上并未實(shí)現(xiàn) GPT-4 之于 GPT-3 的飛躍。

      “下一代大模型”靠小步快跑就可以抵達(dá)嗎?模型架構(gòu)優(yōu)化、訓(xùn)練效果提升、新的數(shù)據(jù)源……模型智力水平新的源動(dòng)力在哪?GPT-5 發(fā)布之后,這些問(wèn)題更加尖銳。而好消息是,諸多模型團(tuán)隊(duì)重新站在了同一條起跑線上。

      雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))文章

      雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

      分享:
      相關(guān)文章
      最新文章
      請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
      姓名
      電話
      郵箱
      微信號(hào)
      作品鏈接
      個(gè)人簡(jiǎn)介
      為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
      您的郵箱還未驗(yàn)證,完成可獲20積分喲!
      請(qǐng)驗(yàn)證您的郵箱
      立即驗(yàn)證
      完善賬號(hào)信息
      您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說(shuō)
      主站蜘蛛池模板: 日韩伊在线| 古浪县| 狠狠色丁香久久婷婷综合五月| 人妻有码av中文字幕久久琪| 中文字幕无码成人片| 精品熟人妻一区二区三区四区不卡 | 国产乱色国产精品免费视频| 高清毛片aaaaaaaaa片| 亚洲最大的熟女水蜜桃av网站| 亚洲av无码一区二区三区网站 | 国产成人精品97| 久久国产成人免费网站| 2024av天堂手机在线观看| 中文人妻av久久人妻水蜜桃| 男女吃奶做爰猛烈紧视频| 91精品国产综合久久久蜜臀酒店| 九月婷婷人人澡人人添人人爽| av青青草| 国产在线不卡一区二区三区| 国产一区二区日韩在线| 亚洲一区二区精品另类| 国产成人+综合亚洲+天堂| 99热这里只有精品免费国产| 国产suv精品一区二区69| 精选麻豆国产AV| 免费看又黄又无码的网站| wwwww黄| 亚洲欧美国产免费综合视频| 国模在线视频| 国产免费丝袜调教视频| 91资源总站| 亚洲乱码国产乱码精品精| 日本人妻中文| 日产久久久| 人人看成人在线| 一本色道久久亚洲加勒比| 国产乱码一区二区三区的解决方法| 青青青国产精品一区二区 | 国产黄三级高清在线观看播放| 美女裸奶100%无遮挡免费网站| 溧阳市|