0
5月31日,騰訊"混元"AI大模型在多模態理解領域國際權威榜單VCR(視覺常識推理,Visual Commonsense Reasoning)中登頂,兩個單項成績和總成績均位列第一。

據了解,這是繼在跨模態檢索領域大滿貫、CLUE自然語言理解分類榜及CLUE總榜登頂后,"混元"AI大模型的又一重大突破,展現了其在多模態理解領域的強大實力。
與跨模態理解任務不同的是,多模態理解任務要求計算機除了做到識別層次的感知(如分類檢測等),還需要達到認知層次的感知(如判斷意圖、邏輯推理等),具備和人類一樣的思考能力。
視覺常識推理VCR(Visual Commonsense Reasoning)作為多模態理解核心任務之一,由華盛頓大學等研究機構于 2018 年發起,自舉辦以來吸引了眾多知名高校、企業和研究機構參加,已成為國際上最權威的多模態理解領域榜單。
此次登頂VCR榜首的“混元”AI大模型由騰訊廣告多媒體AI團隊自主研發,同時借助騰訊太極機器學習平臺的GPU算力和訓練加速框架,該模型在預訓練任務、訓練方式上進行了諸多的創新改進和設計,有效提升了模型性能。
訓練任務方面,“混元”AI大模型基于視覺場景圖預測任務(VSGP)進行細粒度的建模學習,能夠獲取更豐富的視覺語義信息;交互層面,“混元”采用全局+局部注意力的方式,能夠在有限訓練成本的情況下達到最大化的學習效率。
在訓練方式上,“混元”AI大模型在預訓練階段、微調階段增加對抗訓練,提升模型的泛化性能,增強該模型在下游任務上的性能。基于此,“混元”多模態理解大模型在圖文跨模態檢索、視覺問答等多個理解任務上都取得了明顯的效果提升,并最終在VCR上登頂榜首。
截至目前,“混元”AI大模型在MSR-VTT、MSVD、CLUE、VCR等多個領域的AI權威榜單中取得第一名的成績,并刷新多項行業歷史紀錄。這意味著,“混元”在自然語言理解、多模態理解、跨模態理解等領域的技術實力已經得以驗證。
據悉,“混元”已應用到騰訊廣告業務中的多個場景,有效提升廣告推薦精準度,提升用戶體驗和推薦效果。未來騰訊“混元”AI大模型研發團隊也將持續加強對模型的性能優化及迭代,使其發揮更大的學術價值和社會價值。
雷峰網(公眾號:雷峰網)
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。