0
9月12日,阿里通義發布下一代基礎模型架構Qwen3-Next。Qwen3-Next針對大模型在上下文長度和總參數兩方面不斷擴展(Scaling)的未來趨勢而設計,采用全新的高稀疏MoE架構,并對經典Transformer核心組件進行了重構,創新線性注意力和自研的門控注意力結合的混合注意力機制,實現了模型訓練和推理的雙重性價比突破。
基于這一新架構,阿里通義“打樣”了Qwen3-Next-80B-A3B系列模型,開源指令(Instruct)和推理(Thinking)兩大模型版本。新模型總參數 80B 僅激活 3B,性能可媲美千問3旗艦版235B模型,模型計算效率大幅提升。Qwen3-Next訓練成本較密集模型Qwen3-32B大降超90%,長文本推理吞吐量提升10倍以上,并可支持百萬Tokens超長上下文。
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。