<label id="jgr5k"></label>

<legend id="jgr5k"><track id="jgr5k"></track></legend>

^{<sub id="jgr5k"></sub>}

<u id="jgr5k"></u>

久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线

<cite id="9tsg8"></cite>

<p id="9tsg8"></p><cite id="9tsg8"></cite>

<style id="9tsg8"></style>

您正在使用IE低版瀏覽器，為了您的雷峰網賬號安全和更好的產品體驗，強烈建議使用更快更安全的瀏覽器

此為臨時鏈接，僅用于文章預覽，將在時失效

業界正文

發私信給小七

發送

0

LongCat-Flash-Omni正式發布并開源：開啟全模態實時交互時代

本文作者：小七

2025-11-03 12:27

導語：LongCat-Flash-Omni開源發布，5600億參數實現全模態低延遲交互。

11月3日， LongCat-Flash系列再升級，全新家族成員LongCat-Flash-Omni正式發布并開源，LongCat官方App同步上線公測。目前，新App已支持聯網搜索、語音通話等功能，視頻通話等功能會稍后上線；Web端則增加圖片、文件上傳和語音通話等功能。

LongCat-Flash-Omni正式發布并開源：開啟全模態實時交互時代

據介紹，LongCat-Flash-Omni以LongCat-Flash系列的高效架構設計為基礎（Shortcut-Connected MoE，含零計算專家），集成了高效多模態感知模塊與語音重建模塊，在總參數 5600 億（激活參數 270 億）的龐大參數規模下，仍實現低延遲的實時音視頻交互能力，為開發者的多模態應用場景提供了更高效的技術選擇。

新模型也是業界首個實現“全模態覆蓋、端到端架構、大參數量高效推理”于一體的開源大語言模型，首次在開源范疇內實現了對標閉源模型的全模態能力，并憑借創新的架構設計與工程優化，讓大參數模型在多模態任務中能實現毫秒級響應，解決行業內推理延遲的痛點。

具體來看，LongCat-Flash-Omni在一體化框架中整合了離線多模態理解與實時音視頻交互能力，并采用完全端到端的設計，以視覺與音頻編碼器作為多模態感知器，由 LLM 直接處理輸入并生成文本與語音token，再通過輕量級音頻解碼器重建為自然語音波形，從而實現低延遲的實時交互。所有模塊均基于高效流式推理設計，視覺編碼器、音頻編解碼器均為輕量級組件，參數量均約為6億，延續了 LongCat-Flash 系列的創新型高效架構設計，實現了性能與推理效率間的最優平衡。

LongCat-Flash-Omni正式發布并開源：開啟全模態實時交互時代

▲LongCat-Flash-Omni模型架構

與此同時，新模型突破“大參數規模與低延遲交互難以兼顧”的瓶頸，在大規模架構基礎上實現高效實時音視頻交互：模型總參數達 5600 億（激活參數 270 億），卻依托 LongCat-Flash 系列創新的 ScMoE 架構（含零計算專家）作為 LLM 骨干，結合高效多模態編解碼器和“分塊式音視頻特征交織機制”，最終實現低延遲、高質量的音視頻處理與流式語音生成。模型可支持128K tokens上下文窗口及超 8 分鐘音視頻交互，在多模態長時記憶、多輪對話、時序推理等能力上具有優勢。

全模態模型訓練的核心挑戰之一是 “不同模態的數據分布存在顯著異質性”，LongCat-Flash-Omni采用漸進式早期多模融合訓練策略，在平衡數據策略與早期融合訓練范式下，逐步融入文本、音頻、視頻等模態，確保全模態性能強勁且無任何單模態性能退化。

LongCat-Flash-Omni正式發布并開源：開啟全模態實時交互時代

綜合評估結果表明，LongCat-Flash-Omni在綜合性的全模態基準測試（如Omni-Bench, WorldSense）上達到了開源最先進水平（SOTA），并在文本、圖像、音頻、視頻等各項模態的能力位居開源模型前列，實現“全模態不降智”的結果：

LongCat-Flash-Omni正式發布并開源：開啟全模態實時交互時代

· ▲LongCat-Flash-Omni 的基準測試性能

文本：LongCat-Flash-Omni 延續了該系列卓越的文本基礎能力，且在多領域均呈現領先性能。相較于 LongCat-Flash 系列早期版本，該模型不僅未出現文本能力的衰減，反而在部分領域實現了性能提升。這一結果不僅印證了該團隊訓練策略的有效性，更凸顯出全模態模型訓練中不同模態間的潛在協同價值。
圖像理解：LongCat-Flash-Omni 的性能（RealWorldQA 74.8分）與閉源全模態模型 Gemini-2.5-Pro 相當，且優于開源模型 Qwen3-Omni；多圖像任務優勢尤為顯著，核心得益于高質量交織圖文、多圖像及視頻數據集上的訓練成果。
音頻能力：從自動語音識別（ASR）、文本到語音（TTS）、語音續寫維度進行評估，Instruct Model 層面表現突出：ASR 在 LibriSpeech、AISHELL-1 等數據集上優于 Gemini-2.5-Pro；語音到文本翻譯（S2TT）在 CoVost2 表現強勁；音頻理解在 TUT2017、Nonspeech7k 等任務達當前最優；音頻到文本對話在 OpenAudioBench、VoiceBench 表現優異，實時音視頻交互評分接近閉源模型，類人性指標優于 GPT-4o，實現基礎能力到實用交互的高效轉化。
視頻理解：LongCat-Flash-Omni 視頻到文本任務性能達當前最優，短視頻理解大幅優于現有參評模型，長視頻理解比肩 Gemini-2.5-Pro 與 Qwen3-VL，這得益于動態幀采樣、分層令牌聚合的視頻處理策略，及高效骨干網絡對長上下文的支持。
跨模態理解：性能優于 Gemini-2.5-Flash（非思考模式），比肩 Gemini-2.5-Pro（非思考模式）；尤其在真實世界音視頻理解WorldSense 基準測試上，相較其他開源全模態模型展現出顯著的性能優勢，印證其高效的多模態融合能力，是當前綜合能力領先的開源全模態模型。

LongCat-Flash-Omni正式發布并開源：開啟全模態實時交互時代

端到端交互：由于目前行業內尚未有成熟的實時多模態交互評估體系，LongCat團隊構建了一套專屬的端到端評測方案，該方案由定量用戶評分（250 名用戶評分）與定性專家分析（10 名專家，200 個對話樣本）組成。定量結果顯示：圍繞端到端交互的自然度與流暢度，LongCat-Flash-Omni 在開源模型中展現出顯著優勢 —— 其評分比當前最優開源模型 Qwen3-Omni 高出 0.56 分；定性結果顯示：LongCat-Flash-Omni 在副語言理解、相關性與記憶能力三個維度與頂級模型持平，但是在實時性、類人性與準確性三個維度仍存在差距，也將在未來工作中進一步優化。

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

分享：

相關文章

LongCat-Flash-Omni正式發布并開源：開啟全模態實時 ...

小七

編輯

發私信

當月熱門文章

最新文章

熱門搜索

索尼安全金融科技視頻監控 NASA 軟銀創新 Nexus 數字貨幣 Galaxy S6 聯通

為了您的賬戶安全，請驗證郵箱

您的郵箱還未驗證,完成可獲20積分喲！

重發郵箱修改郵箱

請驗證您的郵箱

立即驗證

完善賬號信息

您的賬號已經綁定，現在您可以設置密碼以方便用郵箱登錄

立即設置 以后再說

主站蜘蛛池模板：欧美熟妇xxxxx| freefromvideos性欧美| 97资源站人妻| 亚洲精品无码久久久影院相关影片| 欧美丰满熟妇hdxx| 亚洲熟妇久久国产精品| 91中文字幕一区在线| 蜜臀久久精精品久久久久久噜噜 | 亚洲欧美日韩久久一区二区| 国产精品美女黑丝流水| 97人妻精品一区二区三区软件| 北辰区| 国产一二视频| 无码国产欧美一区二区三区不卡| av无码一区二区二三区1区6区| 人妻无码专区一专区二专区三| 人妻人人澡人人添人人爽| 久久高清超碰AV热热久久 | 日韩中文字幕在线亚洲一区| 中文字幕v亚洲日本在线电影| 国产中年熟女大集合| 人妻在卧室被老板疯狂进入| 栖霞市| 丰满少妇高潮在线播放不卡| 99精品在线观看| 久久亚洲人妻| 影音先锋成人网| 国产真实乱子伦精品视手机观看 | av在线亚洲国产精品| 男女啪啪永久免费观看网站| 贵港市| 国产偷国产偷亚洲清高动态图| 偶偶福利影院| 日韩?无码?中文字幕?精品| 中文字幕在线观看亚洲| 在线看国产精品三级在线| 精品人妻系列无码天堂| 最新精品国偷自产在线下载| 极品美女aⅴ在线观看| 自拍亚洲欧美精品| 国产顶级熟妇高潮xxxxx|

<thead id="hfkte"><rt id="hfkte"></rt></thead>

<tr id="hfkte"></tr>