0
Sora 發布至今,雖然仍未正式對外開放,但對其技術細節、切實影響的討論從未停歇。討論的背后,是為了探索人工智能的更本質問題。
對舊有視覺生成思路的檢驗和校正,是 Sora 帶來的直觀影響。在此基礎上,Sora 所引發的思考,如多模態大模型和物理世界、AGI 技術實現路徑等等,更值得深思。
問題之一是,Sora 的生成效果確實驚艷,較高分辨率和鏡頭多角度變換后的主體一致性,這種程度的生成效果是否意味著 Sora 是世界模型?在能夠生成逼真視頻的基礎上,是否可以說 Sora 可以理解物理世界?
問題之二是,OpenAI 所堅信的大力出奇跡的 Scaling Law 邊界在哪?純數據驅動路線能不能實現 AGI ?
在此背景下,2024 年 3 月 20 日,中國人民大學高瓴人工智能學院舉辦了一場關于 Sora 的思辯會,碰撞出諸多之前不曾考慮到的觀點,同樣可以引發行業內人士的深思。
文繼榮院長在辯論會現場談到,ChatGPT 出來后,學院拿出了「 All in 大模型」的決心;Sora 出現的2024年,全院也在商討新的定位和前進路徑,但無論如何終究會回到高瓴人工智能學院的 Slogan :創造智能而有溫度的未來。
以下為辯論現場實錄,AI 科技評論在不影響語意的前提下進行調整:
一、智能還是偽裝:Sora 到底懂不懂物理世界?
正方黃文炳:
我們認為 Sora 懂物理世界。根據 Sora 發布的視頻,我們可以觀察到,無論鏡頭怎么旋轉,畫面所呈現的時間連續性、空間角度切換后的不變性、光影的反射和變化都和物理世界規律相符。從這個角度來講,如果這些不是物理規律,那是什么呢?
第二個角度我們強調的是:Sora 懂物理規律,而不是說懂物理學規律,物理規律和物理學規律不是一個概念。
基本的物理規律就是指大多數人在現實生活中的直接感受,比如自由落體,可以觀察到一個球從高處往低處掉。可以看到 Sora 生成的絕大部分的視頻都是滿足日常生活中物理規律的運動。
而物理學的規律是指物理學家通過這個實驗或者理論推導出來的嚴格的物理公式或規則。
今天的辯題是懂不懂物理世界,這個物理世界不是指物理學家的世界,而是我們絕大多數人懂得且感受到的一般的物理世界。
第三個角度是關于什么叫「懂」,或者說什么叫「學到」。有些人會從 Sora 不懂物理公式,或不懂嚴格的物理過程,判斷 Sora 不懂物理世界,但這個懂一定是 AI 的懂嗎?
這里需要回顧一下圖靈測試。圖靈測試就是指在測試者和被測試者被隔開的情況下,對兩者進行隨意提問,如果大多數人都無法區分兩者的行為的話,就代表這一 AI 系統具備了智能,那從這個角度來說生成即智能、生成即智能、生成即智能(現場笑)。
只要 Sora 生成的東西,大家通過常理判斷出來是真的,且沒辦法區分出是人還是 AI,我們認為它就是學到了,是懂的。
反方孫浩:
我為正方辯友被 Sora 的表象欺騙了深表遺憾(現場笑),同時也為對方辯友對物理規律的理解偏差表示遺憾。
首先來糾正下物理世界的基本定義。物理世界是指自然規律和物理學定律支配的世界,例如守恒、對稱等等,它包括我們所有能觀察到的物質還有運動的基本的現象,實際上是客觀存在的這個宇宙。如果 Sora 能懂物理世界,那么它生成的視頻必然就得懂相關的規律,能模擬、準確地來刻畫這種規律,但顯然 Sora 現在是達不到的。
其次,Sora 的基本運行的機制就是基于 Diffusion Transformer 對視頻、語言的數據進行壓縮,并且把它的分布給學習出來。然而,僅僅依靠視頻、語言來去描述我們客觀的三維世界顯然是不足的,它是有很強的界限的。
許多介質的演化,比如說流體,需要特殊的狀態量去把它描述出來才行,因此僅僅基于有限維的視頻和語言的數據來訓練模型,那它的表達能力實際上是不夠的。即便生成出來的內容顯得比較逼真,但是它和「真」完全是兩個概念。
所以,還需理清一下逼真和真實概念之間的差別。Sora 生成的視頻確實是很逼真的,但是它只是停留在視頻的表象,缺乏實質。傳統的生成動畫的渲染技術也可以達到一樣的效果,這并不能代表 Sora 具有模擬和理解現實世界的能力。
但我們也沒法否定 Sora 在創作設計、視覺效果等領域的巨大潛力。
正方魏哲巍:
著名物理學家費曼說過一句話:What I cannot create ,I don‘t understand. 即,我不能生成的東西,我就不能理解。從數學的角度來看,這句話的逆否命題就是:我能夠理解的,我就能生成。反過來看,是不是生成的就能理解呢?我認為是。
比如水浪表象的背后一定有一系列的波動方程,但人是不是通過這個方程去理解它?大部分的人真的懂動力學方程嗎?不是。但是不是大多數人都理解水的物理形態呢?我認為是理解了的。
這個理解可以從兩個層面去理解,一個是我們知道物體基于重力會下落,水會有一個波動的過程;另一個是,真正知道它背后運動的方程,那這個方程是不是人通過表象抽象出來的呢?
我認為絕大部分不是,比如牛頓抽象出重力學的方程的過程,是不是真的有一個蘋果砸到腦袋上之后就突然蹦出一個方程?其實不是的。它從很早之前的各種各樣的公式、論文中推導出來,絕對不是僅僅有視頻就能把方程推導出來。
但從人理解物理世界的角度來說,我們跟 Sora 應該是完全一樣的。所以我們認為 Sora 既然生成了,那么它就是理解了。
反方徐君:
Sora 不能夠理解物理世界的一個重要原因是,它企圖從大量的非實驗數據里面去發現物理規律。也就是說它不做實驗,它只是被動地觀察我們這個世界。
基于統計因果中的結論“非干預,不因果”:如果不能去實施干預,算法就不能發現統計因果規律。如果連統計的因果規律都不能發現的話,那么更不要說是物理的規律,物理規律的一個特征就是表述物理世界中各種現象的因果關系。
所以無論是 Sora 還是 ChatGPT,如果只是以現在這種形式被動地搜集數據,然后去訓練一個大模型的話,它是可以被欺騙的,它所學到的內容只是「相關」,而不是「因果」。這是第一個論點。
第二點,從人類最近幾百年發現物理規律的進程來看,科學發現不僅僅需要實際的數據和觀察現象,更加需要人類反直覺的思考和假設。
亞里士多德的直覺觀念“物體在不受力的情況下會保持靜止”在現實生活中是一個非常正常、符合直覺的現象。這個錯誤的直覺觀念的引導下,人類數個世紀都沒有能夠發現正確的物理學定律。直到伽利略、牛頓意識到物體在不受力的情況下會保持勻速直線運動這種反直覺的規律,這才創造了今天的物理學大廈。以直覺為主導的推理方法是靠不住的,基于直接觀察的直覺結論并不總是可靠。
類似的例子還有很多,物理學里面有很多理想模型:像黑體,現實世界無論怎么觀測都找不到一個真正的黑體。雖然我們在實際生活中永遠觀察不到,但是它對我們發現物理學的規律極其重要,如果沒有這些理想化的假設,物理學的大廈無法建立起來。所以說,如果 Sora 僅僅是被動地觀察世界,而沒有辦法進行類似人類的反直覺推理假設,它永遠不能構建正確的物理規律。
可見,Sora 僅僅依托了它的直覺去擬合非實驗的觀測數據,不引入反直覺思考,不干預世界,它發現不了真正的物理規律。
正方宋睿華:
對方辯友認為,要想掌握人類的物理規律,是需要一些反直覺的思考和假設,以及需要干預、驗證物理世界。我方認為這樣的觀點完全錯誤地闡釋了什么叫物理世界,因為這種觀點太以人為中心了。其實這個世界無論有沒有人,它都是物理世界,不能說只有人能理解的物理世界才叫物理世界。
說回到機器學習的核心,就是有了一些模型和未知的參數,同時在現實的數據上可以定義一個損失或者說人為地評價它,最后再進行一個優化。
物理學家基本上也采用這樣的范式。他們先反直覺地發明一些公式,同時會加進來一些參數,接著在理想化的假設條件下做了一些實驗的數據,干預了這個世界,然后得到一些數據,就可以去算公式有多大的損失,接著又進行了一個非常充分的、聰明的思考,從而優化這個模型。
而今天的神經網絡,當增加寬度時相當于多段線性折線函數,可以趨近連續曲線,接著當它的層次加深的時候,它還可以表示更為復雜的函數,所以它比之前那些聰明的物理學家所知道的公式范圍還要大。
如果神經網絡這樣的一個學習過程都不能被稱為智能,難道人就是嗎?為什么非要是人提出的公式、做的實驗才叫智能呢?
再從機器學習的角度來說,對方辯友認為做了一些理想的假設、實驗后,發現了一些所謂的放之四海而皆準、其實也并非的規律,難道不是傳統機器學習的一種 feature engineering 嗎?你其實只是發現了其中一條比較管用的feature,然后再做了一些實驗來驗證它是 99% 或者更高的適用性,這是更為狹隘的對物理世界的刻畫。
目前 Sora 的確還有一些反物理世界的現象存在。但更重要的是,「懂物理世界」和「精確地懂物理世界」并不是等同的。人也是同樣的道理,難道說讓一個人閉著眼睛在腦海中想 Sora 生成的這種兩個海盜船在這咖啡杯里航行的畫面,人就能夠精確地模擬出來畫面嗎?
反方許洪騰:
首先,能生成逼真的視頻和懂物理世界兩者之間本來就沒有必然聯系。
類比人類世界,人類的建筑師、畫家,他們能畫出這個世界、甚至能創造出這個世界的實體,但也并不代表他們真的懂物理世界。因為在人懂物理世界之前,比如原始時期,我們就可以用石頭搭房子了、在石壁上畫下壁畫。
那個時候可能還都還不存在真正意義上的懂不懂物理世界這一回事,但是已經可以去創造相應的藝術作品或相應的客觀實體。從這個角度來講,我不認為現在 Sora 現在具備生成逼真視頻的能力,就真的懂物理世界。
其次,人類對物理世界的理解跟掌握是有一套嚴格的方法論的,我們會去做假設、做觀測,然后會通過實驗最終實現對物理現象的反演。但目前能看到的是, Sora 這樣的生成式模型的學習范式就是數據驅動。
喂給 Sora 數據之后,最多可以說它觀測到了一些數據,且這些數據還不是在一個嚴格的實驗環境下得到的。在這種條件下,如果說他能理解物理世界的話,也肯定是用一種超出我們認知范圍內的方式在去理解。但是現階段我們還沒有看到任何的人工智能能夠真正在通用性或者對世界的理解上真的能達到人的水平。
最后,我覺得Sora 之所以這么強大,也許正是因為它不懂物理世界。Sora 基于它的學習范式,它能夠掌握統計規律,它能把有關聯性的事物融合起來。比如它可以生成龜殼像水晶球一樣的烏龜,包括在咖啡杯里戰斗的海盜船,這是超現實的,這跟物理世界沒有必然聯系。
更早期的,以 stable diffusion 為代表的圖像生成模型,可以生成太空上騎馬、火星上騎馬等畫面,顯然這些現象都不是符合我們所在的物理世界的規律的,并不是理解物理世界的一種表現。正是因為它不能理解物理世界,Sora才可以基于統計相關性構筑它自己的世界。所以說我認為 Sora 是不懂物理世界的。
自由PK環節:
正方:
有一種說法是,ChatGPT不懂文字或者不懂語言。但 OpenAI 首席科學家伊利亞依然認為,做 next token prediction,即能夠預測下一個詞、生成下一個詞,這就是理解了語言。伊利亞也舉了一個例子,喂給大模型一篇懸疑小說,指令是預測懸疑小說里邊的兇手是誰。如果他能夠準確地預測出這個兇手是誰,那他到底是不是懂這篇小說?是不是理解這篇小說?
反方:
圖靈測試其實是工程的測試,就是說你沒有通過圖靈測試,你是沒有這個能力,但是通過了你未必有這個能力。
以考試為例,如果一位同學沒有通過一場考試,這說明這個同學沒學懂,但是通過了這場考試并不代表你已經懂了,因為有可能通過用強記的方式把所有的知識記憶下來,所以圖靈測試并不具有很強的說服力。
正方:
我恰恰覺得 Sora 是通過圖靈測試的,其實圖靈測試就兩點,第一是要與人比,第二是要用問答。其實 ChatGPT 還是問答的形式,但是 Sora 已經不是了,它其實在做的是一種電影測試。
電影測試,一方面是讓人看,生成視頻后讓人去辨別它有沒有錯誤;另一方面,它不是問答,而是用視覺的方式讓人去判斷有沒有智能。
反方:
什么叫懂物理世界?這個物理必須跟真世界是一致的,部分 AI 可能懂懸疑小說,但他不懂物理世界。如果 Sora 所有的數據數據都來自哈利波特的魔法世界,他一樣能預測下一幀,那他能懂物理嗎?并不是,它懂的是魔法。
正方:
關于懂物理世界,我方堅持認為達到常人的理解即可不需要懂物理公式。比如在生活中,在馬路上來了一輛車,你會用牛二定律去算它是多長時間能到面前嗎?并不用,就自己腦補一下,預測未來可能車撞過來了,躲開就 OK 了。這種理解有誤差、有偏差,沒有關系。
另外,人類對物理的理解也是片面的,不斷進步的。不能說現在穿越回去對亞里士德說你根本就不懂物理,我比你懂物理懂得多。也不能說我們現在對物理的理解就是對的。
物理規律是怎么來的?很多時候也是物理學家統計出來的規律,在我們有限的觀察下去驗證它是不是對的,然后基于我們現在的理解,認為它能解釋一些問題,形成的物理規律。但隨著時間的演化,人類對物理世界的理解也在加深,一些物理定律也隨著觀察的增多失效,所以我們不能要求 Sora 一出來,就要求它懂牛二定律,這個肯定不合適。
二、純數據驅動路線能不能實現通用人工智能?
反方許洪騰:
我理解的通用人工智能,其實就是類人的人工智能,希望最后的人工智能跟人一樣具有一定的通用性。那么人是怎么學習的?人是從數據中學習的。我們從出生開始一直都在接收數據,訓練自己。這至少可以證明從數據中接收信息,讓人去進行學習這件事情是可行的,不管是我們自己的體驗還是現在的Sora。
但我為什么反對這樣的技術路線?是因為我覺得這個路線效率是非常低的,從算力或者數據的角度來講是不可行的。人其實是有初始設計的,或者說我們是一種特殊的動物,我們的大腦結構跟別的動物的大腦結構不一樣。那這個結構是怎么來的?結構是經過億萬年物種演化而來,5億年前三葉蟲才開始出現眼睛這個器官,才能夠接觸到視覺信息,然后逐步一直演化到人類的大腦,人類的眼睛,中間經過了5億年的時間,無數代的生物迭代和數據接收。
這是目前為止我們已知的產生效智能的一種方式,但這種方式的效率我覺得是非常低的。我不認為這種方式是能夠實現通用人工智能的一種合理的技術路線,這是我的一個主要觀點。
另外,現在我們已經面臨能源和數據量的瓶頸。按照 OpenAI 的數據消耗速度和增長趨勢,很快訓練用的視頻數據消耗速度就可能會超過我們能夠產生的速度。到那個時候很可能需要由 Sora 來自己產生數據,然后來自我訓練。如果是這樣,這種情況下是不是還是我們傳統意義上說的純數據驅動?它是否還能自我進化?我認為這是存疑的,所以我現在反對這個觀點。
正方毛佳昕:
第一點我覺得這個問題跟第一個議題是兩個完全不一樣的議題。第一個議題其實是關于一個現在已經發生的事情,它到底能不能懂物理,理論上這是有客觀答案的。
第二個是對未來的預測,我們接著往下走能不能實現,我們覺得成功的概率非常大,我們站的觀點是數據驅動是 work 的,所以我從一個數據驅動的角度來回答這個問題。
首先我們怎么找數據呢?先看歷史,看人工智能發展的歷史。一開始大家的想法是要做個人工智能,但是過去差不多 60 多年來的發展,發現感知很難做不了,后來發現有足夠的數據可以解決感知的問題;后來覺得語言很難,認知很難,但是ChatGPT出來又解決了這個問題。所以從歷史數據看,我們覺得數據驅動是一條正確的路徑。
第二點,我們看歷史數據,看其他可以類比的數據是什么?那什么是通用人工智能,我們覺得人類是通用人工智能,那人類是怎么學習的呢?我覺得人類很多情況下,是通過數據來學習的,比如我學物理的方式就是我看了很多物理的書,我做了很多題目,我去考試。這個事情其實基本上跟我們現在訓練大模型去做物理題的數據驅動方式是一樣的,所以人的學習物理方式跟現在大模型學物理是一樣的。
第三點,為什么反對技術路線的原因是有效率方面的問題,這個問題我覺得 Hinton 也在想這個問題,因為6月份他在北京智源人工智能大會的時候做一個報告,最近也在牛津做了一個報告,他那個報告里面提到一個什么東西呢?大家知道Hinton其實是一個認知科學家,他會類比人腦和計算機的差別。他說人腦是一個很高效的系統,同樣說一句話,人腦的用的功率比大模型小得多。但人腦的缺點是什么?是人腦里面的神經網絡的權重沒辦法告訴另外一個人,在通訊效率上很差。
最后我想說,這個辯題里面數據驅動的反面是什么,反面是理論驅動,theory driven,這個 theory 是什么呢?其實并不是物理定律,因為物理學知識對大模型來說,其實是數據,而不是theory,所以這個 theory 其實是關于認知的theory。
所以數據驅動的路線對應的另外一條路線,是基于人工智能的理論驅動的路徑,或者是基于人是怎么認知這個世界的理論來驅動的路徑。
Hinton 之前是這個路徑的,比如,他之前經常討論神經網絡和學習算法是否是biological plausible的。但他最近的觀點發生了改變,他認為人腦雖然在計算效率上存在優勢,但在通訊效率上遠比不上數字計算機。
反方沈蔚然:
我想說兩個觀點,第一個觀點是我們現在所謂的通用人工智能是一個什么樣子的概念?剛才徐老師提到通用人工智能可能是一個比較接近人的,但是如果你去翻閱相關的文獻,它的定義上實際上還有一個就是我們要超過人。
因為現在很多單個任務都超過人,我們希望能做一個通用人工智能的一個算法或者模型,在大部分任務上都能夠超過人,這才是我們的目標。
我們對通用人工智能的期待非常高,那么純數據驅動的路線能不能實現這樣一個事情呢?對方辯友說我們學習物理通過看書做題是接收的數據,但我不這么認為,從物理學的角度來講,數據應該是做實驗得到的數據,你看書上的理論,這是你接受別人前人總結的結果。
這恰恰是我想表達第二個觀點,就是說現在的這種數據驅動的方式,它沒有辦法把數據總結成一些比較簡潔、比較容易理解的理論,然后在此基礎上做進一步的推導。我覺得這是要實現一個通用的人工智能,要想在很多方面做得比人更好,這是目前還回避不掉的一個事情。
你光用數據,可以擬合很多函數,理論上講你有無窮多的數據是可以擬合這些,但是你的效率會非常低,而且數學上有很多的函數,你要想完整地擬合它,你需要無窮多的數據,這是不可能的。但是用數學的語言可以很簡單地描述這件事情,而我覺得要想達到通用人工智能,這些函數可能是過不去的,因為它在我們目前的工程科學領域當中應用非常廣泛。
正方林衍凱:
我發現對方辯友使用了很多辯論技巧,其實對方辯友一直在切換我們的辯題。首先剛開始把「純數據驅動路線能夠不能使實現通用人工智能」切換成「能不能在有限的能源下實現通用人工智能」,或者說「在高效的能源下實現通用人工智能」,這并不是我們的辯題。還有辯友一上來把通用人工智能定義又做了一個切換,說要達到超過人的智力水平。
我回到 technical 的角度去討論第一點,大模型無法總結這種物理規律,或者說無法總結規律,他們做的更多的是這種 memory combination 的事情,但其實這一點在我們現在很多大模型的研究中,其實并不是這么指向的。
大模型干的是什么事情?干的是壓縮,壓縮的基礎剛開始是memory。其實我們在訓練的過程中,大模型為了去最優化它的函數,就是在找尋更好的能擬合這些數據的規律,而且能發生所謂的blocking。那么這一層其實是指向——我們做這種數據驅動,其實能像人一樣發生思考的演化的。
再者,大家也提到目前的數據是有限,其實對于我來說真實世界的數據是無限的。大家把數據停留在網上,已經產生了文本數據、視頻數據,大模型基于這些數據驅動,大模型可以自主地探索這個物理世界的,那么它能接受到的數據其實是無限的。在此基礎上,我們根據這種數據去學習更多的知識,學習更多的物理規律其實是可行的。
反方孫浩:
雙方在理解上出現了一些偏差,首先這個問題叫「純數據驅動路線能不能實現通用人工智能」?它其實一個關鍵的要素是實現,那么你在資源有限的情況下是不是能夠去做到這個事情?這實際上是一個很大的問題。
如果一個事情我們明知道這個做不到,但是我們知道它的路徑可能是可行的,但最終說我能不能去實現,答案是否定的。所以我認為徐老師和沈老師提出來的觀點從現實意義上是很能站得住的。
那么我們再來看一下「純數據驅動能不能實現通用人工智能」,它的另一個要素是數據驅動這一塊。實際上我們復雜的世界,不僅僅是物理世界,還有很多包括人的情感等等世界構成的,是極其復雜的,我們能觀測到的,或者說能獲取到的數據去描述這樣的世界,它是極其稀疏,甚至可能是缺失的。
那基于這樣的數據,再去訓練一個人工智能的模型,它很難達到一個我們真正想要的這種通用的、類人的智能形式。所以說數據驅動只是其中一個要素,但是它最終能不能實現,不能完全依靠它,這是第一個觀點。
第二個觀點還是我剛才講的世界是復雜的,但描述世界的方式是非常簡潔的,那么我們去認知這個世界,不同的科學領域都有認知這個世界的語音和方式,例如可以用微分方程的形式去描述它,它就具有很強的通用性。而它基于的數據卻是極其稀疏非常少的,基于人的假設、推斷、猜想形成的這套理論,那么像這種模型可以在某些特定的或者廣泛的任務上能夠實現這種通用的能力的。
所以我雖然覺得數據是其中非常關鍵的一個要素,但它不是唯一的要素,而對方辨友如果把它給當成唯一的要素去實現通用人工智能,我認為這從觀點和定義上存在一個理解的偏差。
正方黃文炳:
我想反問對方辯友可能沒有仔細看這個辯題,我們問純數據驅動路線能不能實現通用人工智能,是說能不能?你只要回答能還是不能?你不要給他加限制條件,我們并沒有強調說這個數據能不能獲取,而是說在足夠數據的條件之上,能不能實現通用人工智能。
而且還有兩個觀點我也不敢茍同,第一個是談到人工智能到底是什么的定義。我們認為通用人工智能指的是機器所能掌握的處理大多數任務的一般的通用的能力。我們看到定義為AGI,不是AUI,不是 Artificial universal intelligence,它不是萬有的能力,我們說純數據驅動能不能實現通用人工智能,它并不一定包括它能解決科學領域的方程、實驗的結果,但是它一定能實現大多數人在日常生活中所掌握的通用的智能的能力。這是我方的觀點。
當然,我們也承認,包括我們自己做的研究也承認數據驅動不一定能實現所有的智能,包括物理的人工智能,就是說在物理的世界里,數據的獲取確實不容易。但它跟我們今天的辯題不矛盾啊。
同時在物理的場景里,確實有很多嚴格的假設,例如對稱性的假設,流體力學的方程,在這些場景下純數據能不能實現通用人工智能,那種智能還不一定是人工智能,我認為是不行的。但是這并不影響今天的辯題。
自由PK環節:
反方 :
我的答案是不能。為什么呢?
從一個角度來看,就是假設說了有兩個版本,第一個版本他認為這個世界是不一樣的,第二個版本他的參數不一樣,他認為這個世界是另外一個樣子的。那么現在的一個問題是這兩個版本到底哪個是對的?那么只有兩種情況,第一種情況是其中一個是對的,另外一種情況就是兩個都是錯的。所以說從目前的情況來看,我們覺得 Sara 他在認識物理世界的時候,他是有很大的一個偏差的。基于這樣的一個極不穩定的一個模型,它版本的更新是不是我們對于這個世界的認識也得跟著它刷新一遍?這個肯定是不合適的,這是第一個。
第二個關于我們對于認識這個世界,除了數據之外,它其實還有模型的一個處理能力,包括我們人也一樣,我們人不僅僅有認識這個世界數據的經驗,還有我們的理性的處理,也就是說對這個世界的處理能力,數據的處理能力,這個康德已經說的很清楚。
所以如果從這個角度上看的話,Sora不僅要接收來自這個世界不同經驗的數據,同時它需要具備像人一樣,甚至超過人的理性的思維去處理這些數據,兩者缺一不可。
那么如果我們現在從數據的角度來看,Sora目前僅僅介紹了文本、視頻和圖像,那么我們世界有很多其他的數據,各個領域的數據它通通都沒有接觸到,所以在數據這個角度AGI已經鎖死了它。
第二個,從模型的角度來看,目前它基于Diffusion Model和transformer這種簡單的結構,不可能去產生理性的分析以及想象的能力的。所以從模型的處理能力上也鎖死了,所以我覺得不管從經驗的角度來看,還是從理性分析的角度來看,我覺得AGI都被圈住了。
正方:
我首先要補充下剛剛沒有說完的,從效率上講,Hinton原來是支持人腦非常高效,那應該要模擬一個人腦的,最近他的觀念發生了變化,為什么呢?因為人腦非常高效,但是人腦這種大腦它的最大缺陷是我們的交流能力非常差,比如說我要把我的想法傳遞給大家,效率可低了,但是大模型這種基于數字計算機的這種架構,它在模型之間傳遞信息的效率非常高,我可以把整個模型的數據拷貝一份,或者我在訓練的時候所有梯度去做一個reduce,這個效率比人腦高太多了。
你可以想象大模型在做的是什么呢?是一萬個、一億個跟你一樣聰明的人在不斷地讀書,然后他能獲得智能,大家能想象下這是什么水平。
第二個問題回應下兩位老師,他們覺得人可能會有一個東西叫做理性,這種理性是人腦所具備的一種內在的能力,而這種能力是進化產生的,然后說現在的模型不具備這樣能力,并且現在的模型好像沒有進化出這個機制,那你想想我們學院現在在干嘛呢?我們學院在不斷地改架構,我們學院在把神經網絡進化,沒有什么理由認為我們這種操作比大自然的自然選擇低效,所以那未來的模型會不會具備人類內在的理性的能力呢?
反方:
剛剛正方辯友的觀點恰恰說明你是認可架構的重要性的,而架構本質上它其實并不是純數據驅動,它其實對應的還是知識。而且回到這個辯題,純數據驅動能不能實現通用人工智能?如果即使是按照正方辯友講的,就是一種類人的具有一定通用性的人工智能。
除了效率和資源上會制約這種純數據的數據路線的發展之外,另外一點重要的就是這種純數據的路線它歸根到底學習到的是統計規律,而統計規律它必然就會兩個問題,一個是它的外推,或者說是泛化,或者說是外差的能力,這是統計機器學習里面一直存在的一個困境,也就是它沒有這種外推去產生新的知識或者說新的能力,這個是它存在的瓶頸,包括劉老師也是做這個泛化性的研究的。
第二點,不管是架構的演化,還是人大腦的演化,其中除了這種連續的、平滑的過程之外,很重要的一點是突變,這種突變其實并不是通過數據來催化,它是具有高度的隨機性跟偶然性的,那這種突變能否用純數據的方式去驅動?至少這件事情現在還是存疑的。我的觀點就是這樣。
正方 :
我們反問對方辯友,您在日常的吃飯、睡覺,看電腦、看電視的時候到底是用相關性做決策,還是用因果性做決策?
反方:
這個問題非常好,這個事情如果很重要的話,我會用因果性決策。如果這個事情很隨意的話,我自己的決策其實就是隨機的。
反方:
我補充一點,我覺得人類理性決策很重要的一個點,仍然是需要從直覺走到反直覺。
正方 :
當你說到直覺反直覺的時候,你也得通過說出話來,你才知道什么叫是這個反直覺和直覺,從這個角度來說,我還是堅持我在第一個辯題時候發表的一個觀點,就是正方的觀點,生成就是智能。
在生成的時候,我完全可以在我生成的內容里面完成所謂的反直覺,完成所謂的因果推斷,完成所謂的關聯,就是說你作為一個人,你在這個世界上的時候,你難道不說話,整天在那里面就可以因果發現了嗎?你肯定不是,你肯定得通過說話。說話是什么,是數據,你肯定得通過記錄,記錄是什么,是數據,你肯定得做實驗,去做實驗也是一個數據,然后記錄結果。這些都是什么?都是數據,這些都是純數據驅動。
反方 :
生成即是智能其實是一個謬論。你生成的東西有可能是完全違反一些實際存在的一些基本認知的,有可能是完全錯誤的、不存在的,虛幻出來的一個東西。你如果從只是把生成內容這個過程當做是智能的話,這個實際上是個謬論,所以說請對方辯友不要再堅持這么一個觀點。
正方:
孫老師,難道你生成的東西就都是對的嗎?還有人生成的東西就是對的嗎?不對呢,就不是人嗎?就不是通用人工智能嗎?我想你覺得通用人工智能最高標準,現在通用人工智能的標準應該是和一個人對齊,一個普通人對齊。人也有對錯,不是說生成的東西一定要是對的,我方并不持這種觀點。
反方:
生成的東西不一定是對的,但是我們必須突破這種直覺性的理解,才能實現我們人的智能。比如說我舉一個例子,每天早上都聽到公雞打鳴后太陽就升起了,所以我們就認為太陽是公雞叫出來的,這是一個謬論。
正方:
Sora 從數據里頭一樣能學出來,太陽升起來公雞才會叫啊。我們說到Sora有一個版本跟另一個版本不一樣這個問題,但其實人認知也是不一樣的,拿一個同樣的問題來問我們在座的每一個人,像現在這個問題我們都有不同的見解,但不代表我們的不一樣,生成出來的結果就不智能。
反方:
你剛剛說的我們生成的東西是錯的,就不是人了。關鍵是我們能夠判斷人是具有——如果要類人一樣的人工智能,對于特定或者說是很寬泛的一個事物,它是具有判斷或者正確與否的依據的,到目前為止,我們沒有發現有這個依據。
正方:
大模型有。大模型也在判斷正確與否,你說看到Sora生成的視頻為什么比別的算法生成的更加流暢,它甚至在變換視角的時候還是有這種三維的一致性的,一定是有一種判斷在的。
反方:
判斷并不是基于純數據的方式的,這里面有大量的架構和知識來理解的。
正方:
我反駁一下對方辯友的觀點,第一,純數據驅動跟基于純架構,架構跟數據并不是兩個相互對立的topic,純數據驅動一般對應的是符號驅動,是理性主義跟經驗主義的對立,而不是說純數據驅動就不需要模型架構了,感覺對方辯友一直在企圖用一些跟辯題無關的話題來詭辯。
反方:
我覺得任何問題都需要增加一定的條件,如果我花了很長時間,用了大量數據,以至于整個地球的數據都不足以來訓練我的模型,這其實是沒有意義的。這在很多科學中都是如此,比如密碼學中,如果說花了非常多時間,幾十萬年,幾千萬年的時間才能解答這個密碼,那這個密碼其實就是無解的。
所以我認為在現實世界中一定要加上一個限定詞,我要在多少時間內才能把這個問題給解決掉,或者需要多大的資源。但是我的觀點其實跟大家可能有點不一樣,這個問題我覺得更突出是一個「純」字,我認為純數據的驅動,它是不能解決通用人工智能問題的。
架構也是有用的,隨著架構的不斷優化,那我們在訓練數據的時候,可能會使訓練的數據量形式的降低,如果我們增加了一些因果的原理,物理的原理,那我們可以把數據訓練的成本降低,所以我認為純數據驅動是不能的,但是數據有一定作用,但是物理驅動或者因果的原理同樣發揮著非常重要的作用。
正方 :
我反駁一下對方辯友的兩個觀點。這個辯題我們就考慮在理想情況下,我們能不能達到 AGI,第二個后面說的純數據驅動的問題,我就問一下,Sora 算不算純數據驅動,它有沒有用Transformer 架構?
反方:
實際上 Sora 用的 Transformer 架構,Transformer 架構本身也是基于知識去設計的,比如說它里面的幾個QVK,實際上是從物理的張量分析里面有一些理論基礎在里面去支撐它,然后去設計這個架構的。
我們一直在講實際上的數據驅動,一定是能夠輔助我們去實現通用人工智能,但純數據驅動不加知識的,不加我們對于客觀事件理解的,甚至一些先驗的規律的,我們認為這樣設計出來的模型是很難去達到一個通用人工智能。我覺得你們對這個議題的理解,純數據驅動這一塊還沒有理解很深刻,那么未來人工智能發展可能若干年以后會發現純數據驅動走不通了,最后又回到了數據加知識驅動,最后實現通用人工智能。
正方 :
如果transformer結構沒有數據的話,你的模型參數怎么確定?你能一個結構就能做成Sora那樣嗎?所以說其實人工智能三起兩落,那兩落大家現在看來都是因為沒有走純數據驅動的方式,所以我們現在大家坐在一起討論就是因為有了純數據驅動的Sora,要不然我們沒有討論這個的意義。
還有剛才很多老師提了計算效率的問題,現在純數據驅動一個典型方法機器學習,其實考慮的就是泛化性,考慮樣本有效性,你能說他沒有考慮真正的計算資源該怎么在有限的情況下去計算?而且以后可能會有更大的突破。
我們考慮的是未來,我們考慮未來能不能去實現,那么人類其實就是通過觀察數據,包括剛才提到的因果,其實也是數據,反事實數據,還有干預數據,通過數據我們得到一些知識。
我們在討論這個問題的時候,其實最重要的不是人工智能怎么更強,而是我們怎么跟人工智能一起去和諧共生。那么既然我們處理數據,我們人類不如計算機,為什么我們不讓計算機用 AI 去處理,而我們人類去處理一些規則,處理一些公式,處理一些定理,那所以說我們覺得純數據驅動是實現人工智能,包括有溫度的人工智能的一個最終的愿景。雷峰網雷峰網雷峰網(公眾號:雷峰網)
大家怎么看?
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。