<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給朱可軒
      發送

      0

      讓「GPT-4V」跑在手機上,這家中國大模型公司做到了

      本文作者: 朱可軒 2024-08-07 09:42
      導語:對標 GPT-4V,面壁讓實時視頻理解成功“跑”在端側。

      真實世界的視覺信息是流動的,而在處理流動性的視覺信息上,端側視頻理解具有天然優勢,手機、PC、AR、機器人、智能座駕等端側設備自帶的攝像頭,具有天然的多模態輸入能力。

      與云端相比,端側離用戶更近,鏈路更短,效率更高,同時具有更強的信息安全優勢。

      今日,面壁正式發布了 MiniCPM-V 2.6,在端側性能實現全面對標 GPT-4V——

      據介紹,MiniCPM-V 2.6 首次在端側實現單圖、多圖、視頻理解等多模態核心能力全面超越GPT-4V,三項能力均取得 20B 以下 SOTA 成績,單圖理解越級比肩 Gemini 1.5 Pro 和 GPT-4o mini 。

      而類比知識密度來看,得益于視覺 token 相比上一代下降 30% ,比同類模型低 75%,MiniCPM-V 2.6 取得了兩倍于 GPT-4o 的單 token 編碼像素密度(token density)。

      值得一提的是,面壁還將“實時”視頻理解、多圖聯合理解、多圖 ICL等能力首次搬上了端側。

      量化后端側內存僅占 6 GB,端側推理速度達 18 tokens/s,相比上代模型快 33%。并且發布即支持 llama.cpp、ollama、vllm 推理,且支持多種語言。

      實時視頻、多圖聯合理解,首次上端

      有了實時視頻理解功能,大模型猶如擁有一雙“眼睛”,能夠實時看到真實世界,這是多模態大模型走向具身智能等更多實際領域,實現 AGI 的必要條件之一,此外實時視頻理解功能提升人機交互的自然度。

      此次,面壁新發布的 MiniCPM-V 2.6 讓實時視頻理解功能首次運行在了端側。

      此外,對于「太長不看」的視頻,現在可以直接把文件拖進來,讓模型為你總結重點信息,不用看完、不用倍速、也不用快進。

      這段 1 分鐘左右的天氣預報視頻,MiniCPM-V 2.6 能在沒有聽到任何語音的情況下,發揮強大的視頻OCR功能,識別出視頻畫面里密集的文字,給出不同視頻段落中不同城市的詳細天氣描述:

      讓「GPT-4V」跑在手機上,這家中國大模型公司做到了

      MiniCPM-V 2.6 的回答(注:該結果為代碼環境中復現)

      除視頻多模態外,在多圖理解方面,最新發布的 MiniCPM-V 2.6 還首次將多圖聯合理解、多圖ICL(上下文少樣本學習 )功能集成在端側模型,這也是此前 GPT-4V 引以為傲的能力。

      在多圖聯合理解方面,面壁例舉了如下場景——記賬或報銷難題令人頭疼,小票上密密麻麻的數字難以辨別,更別提進行繁瑣的總賬計算。

      此時,可以拍照全部甩給 MiniCPM-V 2.6,在 OCR 能力+CoT (思維鏈)能力的加持下,MiniCPM-V 2.6 可以找出每張小票的金額,并計算總賬。

      不僅如此,在端側多模態推理能力方面,MiniCPM-V 2.6 也順利追趕 GPT-4V。

      比如這道 GPT-4V 官方演示經典命題:調整自行車車座。這個對人很簡單的問題對模型卻非常困難,它非??简灦嗄B模型的復雜推理能力和對物理常識的掌握能力。

      僅 8B 的 MiniCPM-V 2.6 展現出順利完成這項挑戰的潛力,通過和模型進行多圖多輪對話,它清晰地告知完成調低自行車車座的每一個詳細步驟,還能根據說明書和工具箱幫你找到合適的工具。

      讓「GPT-4V」跑在手機上,這家中國大模型公司做到了

      MiniCPM-V 2.6 的“調整自行車車座”測試

      值得一提的是,MiniCPM-V 2.6 的理解能力還不止步于表面,對于梗圖背后的槽點也能展開理解。

      比如,讓 MiniCPM-V 2.6 解釋下面兩張圖背后的故事:

      讓「GPT-4V」跑在手機上,這家中國大模型公司做到了

      MiniCPM-V 2.6 能夠通過OCR識別到兩張圖片上的文字:“WFH Employees 8:59 AM”和 “WFH Employees 9:00 AM”,并進一步推理出“WFH”居家辦公狀態。

      隨后,結合兩張圖片的視覺信息聯合推理出“工作在家時,8:59還在床上睡覺,9點立馬出現在視頻會議上”的居家辦公的“抓狂”狀態。

      當然,MiniCPM-V 2.6 的單圖理解能力也較為理想,其也能揣測出梗圖中很多未明顯露出的潛臺詞。

      而就多圖 ICL 理解而言,上下文少樣本學習能讓模型無需 fine-tune,即可快速適配到特定領域和任務,提高模型的輸出穩定性。對此,MiniCPM-V 2.6 也交出“答卷”:

      提供給 MiniCPM-V 2.6 兩組神轉折畫面,以及對畫面中的“?!苯o出示意文字描述,例如一個戴著手套、重視衛生的廚師,下一秒卻用戴手套的手直接去拿實際有些骯臟的紙幣;一個看似熱衷環保的人,卻把塑料瓶裝水打開裝進環保水壺……

      MiniCPM-V 2.6 能夠自動從前面兩組圖文關系,揣摩出題人的意圖,并自動學會“答題模版”,給出神轉折答案—— 一個人手握大量加密數字貨幣,可你猜怎么著,他出門購物,可是商店卻竟然只收現金!

      讓「GPT-4V」跑在手機上,這家中國大模型公司做到了讓「GPT-4V」跑在手機上,這家中國大模型公司做到了讓「GPT-4V」跑在手機上,這家中國大模型公司做到了

      性能全面對標 GPT-4V 

      以小博大,是端側模型的核心競爭力。

      而面壁 MiniCPM-V 2.6 以 8B 參數,在綜合性能上追趕上 GPT-4V 的同時,首次作為端側模型,掀開單圖、多圖、視頻理解三項多模態核心能力全面趕超 GPT-4V 的新格局,且均實現 20B 參數以下模型性能 SOTA。

      在 MiniCPM-V 2.6 的知識壓縮率方面,我們發現,MiniCPM-V 2.6 體現出極致的高效,取得了兩倍于 GPT-4o 的最高多模態大模型像素密度(Token Density) 。

      Token Density = 編碼像素數量 / 視覺 token 數量,是指單個 token 承載的像素密度即圖像信息密度,直接決定了多模態模型實際的運行效率,數值越大,模型運行效率越高。

      在面壁的測試中,閉源模型的 Token Density 由 API 收費方式估算得到。結果表明,MiniCPM-V 2.6 是所有多模態模型中 Token Density 最高的。

      讓「GPT-4V」跑在手機上,這家中國大模型公司做到了

      Token Density 比較結果

      單圖方面,在綜合評測權威平臺 OpenCompass 上,MiniCPM-V 2.6 的單圖理解能力越級超越 Gemini 1.5 Pro 和 GPT-4o mini ;多圖方面,在多圖評測權威平臺 Mantis-Eval 榜單上,MiniCPM-V 2.6 多圖聯合理解能力實現開源模型 SOTA ,且超越 GPT-4V;而在視頻方面,在視頻評測權威平臺 Video-MME 榜單上,MiniCPM-V 2.6 的視頻理解能力達到端側 SOTA,超越GPT-4V。

      讓「GPT-4V」跑在手機上,這家中國大模型公司做到了

      從左往右依次為 OpenCompass | Mantis-Eval | Video-MME 

      此外,在 OCRBench上,MiniCPM-V 2.6 OCR 性能實現開源+閉源模型 SOTA,而在幻覺評測榜單 Object HalBench 上,MiniCPM-V 2.6 的幻覺水平(幻覺率越低越好)也優于GPT-4o、GPT-4V、Claude 3.5 Sonnet 等眾多商用模型。

      讓「GPT-4V」跑在手機上,這家中國大模型公司做到了

      Obiect HalBench(左) OCRBench(右)

      面壁認為,MiniCPM-V 2.6 之所以能實現從單一到全面的優勢躍進,除了 Qwen2-7B 基座模型的性能加持之外,也歸功于采用了統一高清視覺架構,讓傳統單圖的多模態優勢功能得以繼承,并實現了一通百通。

      讓「GPT-4V」跑在手機上,這家中國大模型公司做到了

      統一高清視覺架構

      以 OCR SOTA 能力為例,它能夠將 MiniCPM-V 單圖場景的“180萬高清圖像解析”進行能力遷移和知識共享,無縫拓展至多圖場景和視頻場景,并將這三種視覺理解場景統一形式化為圖文交替的語義建模問題,共享底層視覺表示機制,實現相比同類型模型,視覺 token 數量節省超過 75% 。

      而在 OCR 信息提取的基礎上,MiniCPM-V 2.6 還能進一步對表格信息進行類似 CoT(思維鏈)的復雜推理。比如讓模型計算 2008 年奧運會獲得金牌數最多的 3 個國家一共獲得了多少枚金牌,CoT 的過程為,首先利用 OCR 能力識別并提取出獎牌榜中金牌數量的前三名國家;再將前三名國家的金牌總數相加。

      讓「GPT-4V」跑在手機上,這家中國大模型公司做到了

      8.2%的超低幻覺率,亦是發揮了小鋼炮系列AI可信方面的傳統優勢。

      此外,面壁還通過 Ultra 系列對齊技術,增強了MiniCPM-V 2.6 的復雜推理能力和通用域多圖聯合理解能力:

      在多模態復雜推理能力對齊方面,MiniCPM-V 2.6 通過復雜題目的 CoT 解答數據,構造高效對齊種子數據,并通過模型自迭代完成數據凈化和知識學習。

      在多圖聯合理解方面,MiniCPM-V 2.6 從通用域自然網頁中結合文本線索挖掘多圖關聯語義,實現多圖聯合理解數據的高效構造。

      除面壁外,近來,國內其他大模型團隊也都在多模態方面卯足全力。

      7月,上海人工智能實驗室發布書生·浦語靈筆(InternLM-XComposer)多模態大模型的 2.5 版本,規模為7B。

      官方介紹稱,IXC-2.5 可以支持 24K 多模態圖文上下文,超過 20 輪圖文交互,具備圖像視頻理解、網頁創作、圖文寫作等多項功能。

      與前一版相比,IXC-2.5 在視覺語言理解方面主要進行了包括超過 4K 分辨率的圖像理解、多輪多圖超長對話、精細視頻內容分析在內的三項升級。

      剛剛過去的世界人工智能大會(WAIC)期間,聯匯科技也帶來了第二代多模態智能體 OmAgent,相較于去年發布的第一代,OmChat V2 在感知模塊、思考決策能力等方面進行了提升,可以看準時序關系、多圖關系。

      同樣在 WAIC 期間帶來多模態大模型最新升級產品的還有商湯科技,商湯將流式交互融入大模型,發布了國內首個具備流式原生多模態交互能力大模型“日日新SenseNova 5.5”,綜合性能較 5.0 版本提升了 30%,交互效果和多項核心指標實現對標 GPT-4o。

      此外,商湯升級版的端側模型“日日新 5.5 Lite”,相比 4 月的 5.0 版模型精度提升10%,推理效率提升15%,首包延遲降低40%。雷峰網(公眾號:雷峰網)雷峰網


      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。

      讓「GPT-4V」跑在手機上,這家中國大模型公司做到了

      分享:
      相關文章
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 午夜福利日本一区二区无码| 熟女[21p]| 中文字幕国产日韩精品| 亚洲成人久久躁狠狠躁| 亚洲AV日韩AV激情亚洲| 国产又黄又硬又湿又黄的视| 蜜臀av午夜一区二区三区| www.97| 欧洲高清无码| 91在线视频| 国产精品三级一二三区| 亚洲成人色| 日韩在线视频线观看一区| 深夜福利在线观看视频| 西昌市| 亚洲国产精品无码av| 久久AV高潮AV| 亚州Av无码| 亚洲中文字幕第二十三页| 亚洲综合成人av一区在线观看| 日本丰满熟妇videossexhd| 国产亚洲av日韩精品熟女| 精品人妻伦一二三区久久| 成**人毛片www免费版| 国产99久一区二区三区a片 | 日韩欧美在线观看| 亚洲一卡二卡精久久| 人妻少妇嫩草AV无码| 无码人妻专区| 超碰成人网| 免费播放一区二区三区| 国精品91人妻无码一区二区三区 | 四虎永久在线精品无码视频| 日本高清成本人视频一区| 新狼窝色av性久久久久久| 国产成人高清亚洲一区久久| 久久精品人人做人人爽电影蜜月| 97超碰自拍| 欧美一区二区三区性视频| 69xxx国产| AV伦成人短剧|