拳打可靈，腳踢 Veo 3，誰是物理世界的「懂王」？

本文作者：郭海惟

2025-06-20 16:04

導語：“價格最低只有 Veo 3 的 1/9。”

一個優秀的多模態視頻生成大模型永遠是一套復雜的系統級工程，它包括但不限于：跨模態理解與對齊能力，時序一致性的控制能力，精細化的編輯和修正能力，以及高效計算和成本控制的能力等。這讓它看起來總像是一個巨頭的游戲：字節、快手，谷歌、OpenAI，他們手握著深如湖海的現金，寬似江河的流量動員能力。

不過在這條巨龍扎堆的賽道上，有三兩個身影站出來做點新東西。MiniMax大概就是其中跑得最前，聲音最響亮的團隊之一。二十多天前，谷歌最新推出的Veo3，被許多產業觀察者稱作視頻生成劃時代的產品；而二十天后，在又一個萬籟俱靜的618里，MiniMax發布了新一代Hailuo 02，給視頻生成大模型領域增添了一些實打實的“多快好省”。

Artificial Analysis視頻模型評測榜顯示，Hailuo 02視頻模型甫一推出，其ELO得分大幅度超過谷歌 Veo 3 和快手的 Kling 2.0，成為了全球排名第二的視頻生成模型。

拳打可靈，腳踢 Veo 3，誰是物理世界的「懂王」？

01 讓復雜運動成為現實

一些用戶對Hailuo 02的評價是“更具電影感”，其中很重要的原因是Hailuo 02擁有了更好的復雜場景與運動呈現的能力，也被認為是目前全球唯一能夠實現此類極限物理運動視頻效果的模型。

復雜的運動鏡頭，可以帶來很好的情節張力，讓觀眾迅速被鏡頭抓住而進入場景，往往出現在電影制作中最核心的高潮情節中。但相關場景的生成，對于模型的時空一致性要求非常高。稍有不慎，模型很容易發生丟失細節、違反物理規律，甚至穿模的情況。

比如在“馬躍起，落地奔跑”這么一段簡單的prompt測試中，模型需要讓馬和人保持一致性的身體姿態，才可以給觀眾傳達出真實感。這種一致性不是簡單的姿勢同步，而是要呈現符合物理規律的力的傳遞中的層次感。

Hailuo 02很好地處理了每一個細節的物理關系，不僅是人與馬的姿態協同，包括馬尾、馬鬃毛和人的頭發飛揚都很有真實感。

Hailuo 02

相比之下，對標的測試模型便出現“馬淺跳，但人高飛”的情況，起跳過程也完全發生在了障礙物以外。

可靈2.1大師版

類似的場景還有“hellokitty打網球”，大量的模型在這個prompt測試詞上翻了大車。

海螺基本能實現球拍與球之間的互動：

Hailuo 02

但有些對標測試模型則出現了“精靈球”的情況，有點像哈利波特的場景，球很有自己的想法：

vidu

同樣的球與拍之間出現了神秘磁場：

luma

大變活“球”：

即夢：視頻3.0 pro

而對世界物理規律具體而微的理解，只是復雜動作的難點之一。在一些快速移動的運動中，往往會面臨背景的快速變化。相比于人的動作，背景視野的大范圍移動意味著模型優秀的空間感知能力。

其中最典型的莫過于滑雪運動：鏡頭固定在快速變化的人體動作的同時，雪景可能隨著人的拍攝角度和速度移動而不斷遷移，場地本身則會隨著雪橇板的移動而掀起雪浪、留下移動軌跡。

Hailuo 02基本重建了滑雪場的環境視覺效果，滑雪板會留下仿真的雪痕，雪浪飛舞的方向與大小也隨著動作和軌跡的變化而變化。

Hailuo 02

相比之下，同類模型的雪道缺乏動態，在快速移動收尾時，雪橇板會在高速運動中，出現從雙腳“脫落”的穿模現象。

可靈2.1大師版

如果你看完了以上兩段雪場視頻，或許會發現，在第二段視頻中，鏡頭其實是沒有保持一致性的。其整個5秒視頻，總計是由一段3秒和一段2秒的視頻組合起來的，畫面從近景切換到全景，從而達到某種類似蒙太奇的視覺效果。

這其實是由于“跨幀連貫性”是長期困擾視頻生成模型的痛點，視頻的連續畫面每增加一秒，對于時序一致性的處理難度便會幾何級地提升，更遑論保持長鏡頭、高強度的運動畫面中的畫面穩定。

這也是為何，絕大部分的大模型視頻長度都被設計在10秒以內，同時在10秒的選項之外，還會給出能力更穩健、成本更友好的5秒選項。

但一些快速的運動軌跡，意味著模型必須在短時間內產生大量的動作與物體交互，這些高強度交互，相當于在有限時間內快速提高了保持視頻時序一致性的難度。因此即便一些交互看起來并不復雜，但一旦頻次超過閾值，模型也可能會擺爛。

例如在經典的拋多個小球的雜技場景里，Hailuo 02演示了很穩定的鏡頭表現。畫面中六個小球的大小和顏色雖然都很相似，但觀眾依然可以分辨出每一個小球的運行軌跡，其中絕大部分的小球也在運動中保持了穩定的形態。

提示詞：畫面中人物快速拋接球體，彩帶飄動落下，人物不停拋接球體——

Hailuo 02

但在測試的對標模型demo中，除了在一開始沒有識別到初始圖中的“雜耍”場景意圖外，大量的球體和彩帶交互，也出現了明顯的“吞球”現象，不斷有球體消失和生成，場面顯得非常混亂。

可靈2.1大師版

如上，優秀的復雜運動鏡頭呈現，背后是一整套模型的體驗優化——它除了有強大的物理渲染能力外，還需要模型能夠熟悉世界的物理規律呈現方式，有很好的跨幀連貫性。

但相比于以上的技術優化，模型對畫面和語言意圖的理解，或許是讓畫面得以更加符合觀眾直覺的更核心的能力。

如果再回到騎馬和拋接球兩個場景，我們會發現，理解第一幀畫面的意圖是整個圖生視頻中最關鍵的一環：模型需要知道，馬術前面有障礙物，其實是暗示讓馬越過障礙；而黑色領結+白色T恤的拋接球者，很可能是暗示雜技表演的場景。

除了畫面理解外，大模型對動作的理解也需要更加符合人類的直覺。以一個很簡單的測試prompt詞，“運動幅度，中等”。中等是個模糊的概念，不同模型對“中等”的理解不盡相同，Hailuo 02 基本能做到脖子等大關節的移動，基本符合人對畫面與prompt的直覺。

而在對標測試模型中，一些模型則出現了只有臉部活動的情況，顯然與人類直覺并不匹配。

vidu

或者只搖動鏡頭，雖然畫面實現了“中等”的“運動”，但人其實幾乎不動。

luma

測試demo中一個比較極端的案例是，提示詞：動畫風格，畫面中人物騎車穿越小鎮狹窄街道，鏡頭穩定地側拍她向前移動，背景快速拉動——

Hailuo 02很好地還原提示詞與第一幀畫面中的“導演意圖”，給出了人物與生活環境的關系特寫，甚至能通過一秒鐘的人臉大側寫呈現出了日本動漫中常見的人物積極情緒。

Hailuo 02

在其他對標測試模型中，模型似乎錯誤地把前進對象理解成了“背景”，導致出現了詭異的自行車倒退的情況，而人物狀態則完全隱匿在視頻中。

可靈2.1大師版

02 效率總是AI與世界雙向奔赴的前提

MiniMax創始人閆俊杰曾多次在接受采訪中表示，多模態是AGI擴散的最佳途徑，因為絕大部分人的輸入和輸出其實都是多模態的。與此同時，越來越多的從業者也開始將多模態作為大模型理解世界物理規則的方式。從這個角度而言，Hailuo 02的升級不止是視頻能力的迭代，也是MiniMax基礎模型智能對世界理解力的提升。

據了解，MiniMax 這次的 Hailuo 02 和 01 其實是兩代截然不同的產品，其中最核心的變量是 Hailuo 02 幾乎完全重建了模型的底層架構，推出了 Noise-aware Compute Redistribution（NCR）。

NCR將超長視頻token根據噪聲水平進行有規劃的壓縮，構成不同難度的“去噪目標”，并配合精心設計的噪聲調度體系，用統一的模型進行聯合學習。MiniMax這套新架構一方面大幅提高訓練推理效率，另一方面也有效幫助模型擴展。

拳打可靈，腳踢 Veo 3，誰是物理世界的「懂王」？

據官方披露，在同等的參數量級下，新架構使海螺的訓練和推理效率提升了2.5倍。

這意味著在同等成本的考量下，MiniMax 可以采用更大的參數來推高模型的表現力。最終，MiniMax 將 Hailuo 02 的總模型參數規模推高了三倍、數據量提升了四倍。而更大的模型參數又為推理提供了優化的空間。于是我們看到了一個細節能力更好、意圖識別更強的視頻模型。

此外在評分表現中，Hailuo02也擁有SOTA的“指令遵循”的能力表現：其在復雜指令 prompt 響應率能做到 85%，超越所有同行。這也解釋了為什么在剛才幾個 demo 案例對比中，無論是什么類型視頻生成，Hailuo 02 能更好地還原和實現 prompt 的意圖。

而能夠實現SOTA的底層支持，便是像 NCR 等一系列效率工具所提供的智能冗余，讓模型有能力去很好完善推理能力，從而更好去理解世界和生成世界。于是，我們才有了今天唯一能生成電影機復雜運動場景的“Hailuo 02”。

如果說，效率讓模型能力上限更多元、更綜合地提升，讓 AI 模型更加貼近世界；那么效率所帶來的更低價格，永遠是讓世界貼近 AI 模型的最有效、最屢試不爽的手段之一。

高效的模型能力，意味著相同的預算、同級別的視頻能力，Hailuo 02可以支持更長更多的視頻生成。

根據 MiniMax 的官方測算，Hailuo 02 的成本在第一梯隊的視頻生成模型中保持了明顯的優勢。尤其是在 1080P 高清視頻的輸出中，Hailuo 02 比 Seedance 領先了整整一個身位，而相比同期發布的Google Veo3，海螺的價格約為后者的1/9。

拳打可靈，腳踢 Veo 3，誰是物理世界的「懂王」？

這其實與不同公司的技術審美分野有關：

有些公司追求的是智能上限，用極限的資源做極限的事情，而 MiniMax 從 DAY ONE 開始就是一家“奔赴世界”的公司，它的目標是“Intelligence with Everyone”，從一開始就注定了它的技術審美是面向所有人的，模型迭代自然也要為普通人和普通創作者服務。

與之對應的，海螺作為視頻模型，它的技術初心也是“Accessible to Everyone”，即希望讓用戶都能用到上限最高、成本最低的模型。

接下來，海螺還將繼續“卷”下去。根據官方表態，Hailuo 02 接下來將繼續在以下幾個方面更快速更新：

生成速度提升

更好的偏好對齊，抽卡率 / 穩定性提高

T2V / I2V 之外的高階功能的實現

視頻生成大模型沒有完美的產品，但 Hailuo 02 已經是一個足夠酷炫、也足夠親民的產品，而 AI 也正在不斷接近它完成“復雜運動”、理解“復雜世界”的使命。

（雷峰網(公眾號：雷峰網)）

（作者微信：hai2023zi）

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

郭海惟

高級主筆

微信：hai2023zi

掃描關注作者微信

發私信

當月熱門文章