^{<sub id="jgr5k"></sub>}

阿里云通義開源推理大模型QwQ，推理水平比肩OpenAI o1

本文作者： nebula

2024-11-28 16:37

導語：推理水平對標OpenAI o1！阿里云通義開源最新推理模型QwQ。

11月28日，阿里云通義團隊發布全新AI推理模型QwQ-32B-Preview，并同步開源。評測數據顯示，預覽版本的QwQ，已展現出研究生水平的科學推理能力，在數學和編程方面表現尤為出色，整體推理水平比肩OpenAI o1。

QwQ（Qwen with Questions）是通義千問Qwen大模型最新推出的實驗性研究模型，也是阿里云首個開源的AI推理模型。阿里云通義千問團隊研究發現，當模型有足夠的時間思考、質疑和反思時，其對數學和編程的理解就會深化。基于此，QwQ取得了解決復雜問題的突破性進展。

阿里云通義開源推理大模型QwQ，推理水平比肩OpenAI o1

在考察科學問題解決能力的GPQA評測集上，QwQ獲得65.2%的準確率，具備研究生水平的科學推理能力；在涵蓋綜合數學主題的AIME評測中，QwQ以50%的勝率證明其擁有解決數學問題的豐富技能；在全面考察數學解題能力的MATH-500評測中，QwQ斬獲90.6%的高分，一舉超越o1-preview和o1-mini；在評估高難度代碼生成的LiveCodeBench評測中，QwQ答對一半的題，在編程競賽題場景中也有出色表現。

面對復雜問題，QwQ展現了深度自省的能力，會質疑自身假設，進行深思熟慮的自我對話，并仔細審視其推理過程的每一步。比如，在經典智力題“猜牌問題”中，QwQ通過梳理各方對話并推演現實情況，像個擅長思考的人一樣，揣摩“這句話有點tricky”，反思“等一下，也許我需要更仔細地思考”，最終分析得出正確答案，讓人驚艷。

目前，QwQ-32B-Preview已在魔搭社區和HuggingFace等平臺上開源。發布短短幾小時，引起全球開發者熱情體驗。有開發者認為該模型“是完全沒有預料到的瘋狂的躍進”、“今年開源領域最重大的突破”、“讓中國在開源大模型和AI推理上占據先機”。通義團隊透露，盡管QwQ展現了強大的分析能力，但該模型仍是個供研究的實驗型模型，存在不同語言的混合使用、偶有不恰當偏見、對專業領域問題不了解等局限。隨著研究深入模型迭代，這些問題將逐步得到解決。

附：

Modelscope開源地址：https://modelscope.cn/models/Qwen/QwQ-32B-Preview

Modelscope創空間體驗：https://modelscope.cn/studios/Qwen/QwQ-32B-preview

HuggingFace開源地址：https://huggingface.co/Qwen/QwQ-32B-Preview

HuggingFace Space體驗：https://huggingface.co/spaces/Qwen/QwQ-32B-preview

雷峰網(公眾號：雷峰網)

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

nebula

運營

發私信

當月熱門文章

無弦吉他中場戰事