<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能開發者 正文
      發私信給鄭佳美
      發送

      0

      李飛飛最新思考:語言模型救不了機器人

      本文作者: 鄭佳美   2025-11-18 11:59
      導語:聊天模型卷不動未來,空間智能才是真正的戰場。

      過去幾年里,AI 行業的節奏快得近乎失真。模型一次次刷新極限,產品迭代像在搶時間,討論從“推理成本”到“智能涌現”再到“AGI 時間表”,情緒在樂觀與焦慮之間來回擺動。

      在這樣密集的技術周期里,很少有人愿意停下來思考一個更基本的問題:我們到底在追求怎樣的智能?語言之上,是否還有尚未被充分理解的能力?

      一周前,李飛飛用一篇關于世界模型的長文把這個問題重新擺上了臺面,這篇文章沒有渲染革命,也沒有給出輕松的未來,它的分量在于指出當下技術正在繞開的那些硬骨頭:空間理解、物理推理、具身行為以及真實世界的不確定性,這些長期被回避的難題在文中被逐一攤開,也迅速 AI 圈內部關于世界模型的激烈討論。

      一周后,李飛飛在最新的訪談再次提及那篇文章里尚未說盡的部分,把那些自己反復思考卻在長文里無法完全展開的問題細致拆解,從語言模型在世界理解上的結構性短板,到三維空間在智能形成中扮演的基礎角色,再到機器人長期停滯背后那些難以繞過的現實條件,她都給出了更具體的解釋。

      隨著這些碎片化的線索被重新理順,這次訪談本身也像是那篇長文的延續與補全,讓外界得以更清楚地看到她真正關注的技術方向以及其中的邏輯。

      對此,AI 科技評論將訪談內容做了不改變原意的編譯:

      李飛飛最新思考:語言模型救不了機器人

      從圖靈問題到深度學習的七十年

      主持人:今天的嘉賓是李飛飛博士,被譽為 AI 教母。她一直是推動這場人工智能革命的關鍵人物,主導了許多重要突破。她牽頭創建了 ImageNet 數據集,提出了一個影響深遠的觀點,也就是人工智能要變得更聰明,需要海量而干凈的標注數據。這個數據集成為一個轉折點,為今天模型的訓練方式和規模化奠定了基礎。她曾擔任谷歌云的首席 AI 科學家,參與并推動了早期多項重大技術的誕生。

      她還在斯坦福大學領導人工智能實驗室,培養了很多頂尖人才。同時,她和同事共同創立了斯坦福以人為本人工智能研究所,這個機構正深刻影響著未來 AI 的發展方向。她也曾在推特董事會任職,被《時代》雜志評為全球百位 AI 影響力人物,并入選聯合國顧問委員會。

      李飛飛:謝謝,能來到這里我很開心。

      主持人:我想先用一段評價來鋪墊一下背景。《連線》雜志說過,李飛飛是那一小群推動人工智能近年巨大進步的科學家之一,這個群體小到用一張餐桌都能坐下。很多人叫你 AI 教母,還有一點和許多 AI 領域的領導者不同,你對 AI 充滿樂觀。你不認為 AI 會取代人類,不會搶走所有工作,更不會帶來毀滅。所以我想先從這個問題開始,你覺得從長遠看,AI 會怎樣影響人類。

      李飛飛:我可能要先澄清一下,我不是烏托邦主義者。我并不是說 AI 不會對就業或社會產生影響。事實上,我更愿意把自己稱為人文主義者。我一直相信,AI 現在能做什么、未來能走多遠,都取決于我們,都取決于人類自己。

      如果把視角放到人類文明的長河中來看,技術整體上始終是推動力。我們是一個天生愛創新的物種,從最早的文字記載直到今天,人類一直在不斷發明、不斷改進工具。正是依靠這些,我們改善生活、提升工作方式、建設文明。

      我堅信 AI 也是這條道路的一部分,這就是我保持樂觀的原因。不過任何技術都有兩面,如果我們作為物種、社會、社群、個人沒有做出正確選擇,也可能把事情帶到糟糕的方向。

      我二十五年前就開始研究人工智能,過去二十年也在帶學生。幾乎每個從我實驗室畢業的學生,我都會提醒他們,你們研究的叫人工智能,可真正重要的部分從來不是人工,而是智能。

      主持人:回到你剛才說的,AI 的未來走向取決于我們自己。你覺得我們需要做些什么,才能讓 AI 往正確的方向發展?我知道這是很難回答的問題,你有沒有一些建議?

      李飛飛:我始終覺得,每個人都應該做一個有責任感的個體。不管做什么,我們從小就教孩子要有責任心,作為成年人更要做到這一點。

      無論你是在研發、部署還是使用 AI,甚至在技術越來越普及的情況下,大多數人都會在不同環節和 AI 打交道,都應該帶著負責的態度,真正關心它的發展,而且是認真地關心。

      現在,每個人都需要關注 AI,因為它會影響你的生活、你的社區、整個社會,甚至影響下一代。以負責任的心態去面對 AI,是第一步,也是最重要的一步。

      主持人:那在 ImageNet 出現之前,AI 的世界是什么樣的?你為什么要創建它?它是如何成為后續革命的分水嶺的?從那之后又發生了什么?

      李飛飛:老實說,我有時會忘了,對大多數人來說 AI 還是件相對新的事情。我這一生幾乎都在做 AI,從十幾歲因為好奇心走進這個領域,到今天它變成可能改變整個人類文明的技術,我覺得這是非常幸運的事情。

      不過嚴格來說,我不算第一代 AI 研究者。第一代 AI 要追溯到二十世紀五六十年代,甚至更早。在四十年代,Alan Turing 就已經提出了一個相當前瞻的問題,我們能不能造出會思考的機器?他還提出了一種測試方法,也就是對話形式的機器測試。按照這個標準,我們現在確實已經擁有能“對話”的機器了,不過那更像是一則具有啟發意義的小故事。

      AI 真正作為一個學科起步是在五十年代,當時的計算機科學家們聚在一起,討論如何用程序和算法做一些原本只有人類才能完成的認知任務。

      1956 年的達特茅斯會議被認為是 AI 的正式誕生點,John McCarthy 教授在那次會議上第一次提出“人工智能”一詞。從五十年代到八十年代,是 AI 的早期探索期,出現了邏輯系統、專家系統,也開始有了對神經網絡的初步嘗試。

      到了八十年代末、九十年代到二十一世紀初,機器學習開始興起,它把計算機編程和統計學習結合到一起,帶來了一個非常重要的理念,也就是單靠規則和程序,是無法讓機器擁有我們期望的那種龐大認知能力的。

      我們必須讓機器自己去學習模式。一旦它能學模式,就有希望延展能力。比如給它看三只貓,我們的目標不是讓它認出這三只,而是讓它能認出接下來無數只貓。這種學習能力是人類和動物的基本能力,AI 也應該具備這一點。

      我在二十一世紀初正式進入 AI 領域,2000 年在加州理工開始讀博士。我算是第一代機器學習研究者。當時我們已經開始學習神經網絡等概念,我在加州理工上的第一門課就是神經網絡,但學得非常吃力。當時正好處在“AI 寒冬”的中間階段,公眾并不關注,資金也有限,但同時也有很多有意思的新想法不斷冒出來。

      而我之所以后來能和現代 AI 的起點緊密聯系在一起,主要有兩個原因。第一是我選擇從視覺智能來切入 AI。人類本質上是高度依賴視覺的生物,我們的大部分智能都建立在視覺感知和空間理解上,不只是一種語言能力,這兩者是相輔相成的。

      所以在博士階段和職業生涯的早期,我和學生們一直在研究一個核心問題,就是物體識別。因為物體識別是理解世界的基礎。我們在現實中行動、觀察、推理、互動,很大程度上都是基于“物體”這個層級的。我們不會在每次操作時把世界拆成分子層面,比如拿起茶壺時,你不會想著這東西由很多碎片組成,而是直接把它當作一個整體來互動。

      但研究物體識別時,我們嘗試過各種數學模型,包括神經網絡和貝葉斯網絡,卻遇到了一個非常突出的瓶頸,就是數據不夠。那時整個領域大多把注意力放在模型本身上,可我漸漸意識到,人類的學習方式、甚至生物進化,都是一種不斷吸收大量經驗的過程。

      人通過接觸海量經歷不斷學習,動物在進化時也是不斷體驗世界。因此,我和學生漸漸意識到,讓 AI 真正“活”起來,有一個被忽略但極其關鍵的因素,就是大規模數據。

      于是我們在 2006 年和 2007 年啟動了 ImageNet 項目。當時我們非常有野心,想把互聯網上所有和物體相關的圖像都收集起來。當然,那時候互聯網規模還遠沒現在這么大,所以這個想法聽起來還算合理。放到今天,絕對不可能靠幾個學生和一個教授完成。

      但我們真的做出來了。我們從互聯網上精挑細選了大約一千五百萬張圖像,借鑒了 WordNet 的體系,構建了兩萬多個概念類別,最終形成了 ImageNet,并把它開源給全世界的研究者。我們還舉辦年度 ImageNet 挑戰賽,邀請大家一起參與,同時也繼續推進自己的研究。

      2012 年被很多人視為現代深度學習的起點。那一年 Geoff Hinton 教授帶領多倫多大學團隊參加 ImageNet 挑戰,他們用 ImageNet 的大數據和兩塊英偉達 GPU 訓練出一個神經網絡模型。雖然它沒有完全解決物體識別,但帶來了突破性的提升。

      大數據、神經網絡和 GPU 這三個因素疊加,成了現代 AI 的黃金組合。

      快進到 ChatGPT 的發布,這是 AI 真正進入公眾視野的時刻。從技術角度看,ChatGPT 的出現依然離不開這三大核心要素,只是數據規模變成了互聯網級,神經網絡結構更復雜,用的 GPU 數量也更多,但底層的邏輯和原理并沒有改變。這三件事到現在仍然是現代 AI 的基石。

      主持人:你當時就是覺得,要推動 AI 發展,ImageNet 必須做,然后就去做了。不過在那個時期,大家更常用的說法是機器學習,對嗎?

      李飛飛:當時 AI 和機器學習這兩個詞是交替使用的。大概在 2015 年年中到 2016 年年中,一些科技公司會刻意回避用 AI 這個詞,因為他們擔心這個詞會不會變成負面標簽。但我一直鼓勵大家勇敢使用 AI 這個詞。因為在我看來,讓機器變得智能,是人類在科技探索中提出過最大膽的問題之一,我對這個詞非常自豪。不過確實,在早期,很多人是有顧慮的。

      主持人:那是哪一年開始,AI 這個詞逐漸被廣泛接受的?

      李飛飛:我覺得是 2016 年吧那算是一個轉折點,那時起有些人開始愿意用 AI 這個詞了。再往后,如果你看硅谷公司的宣傳,大概 2017 年左右,才真正出現公司開始把自己定位成 AI 公司。

      主持人:說到那段早期歷史,你覺得有沒有什么重要但大家可能不知道的事值得分享?

      李飛飛:我覺得和所有歷史一樣,雖然我被視為這段發展的一部分,但背后有太多無名英雄和研究者。這是幾代人一起耕耘出來的結果。在我的職業生涯中,有無數人給過我啟發,我在書里也提到過這些。

      不過我們的文化,特別是硅谷文化,總習慣把功勞集中在某一個人身上。雖然這樣做有它的價值,但我想提醒大家,AI 的發展已經持續了七十年,是好幾代研究者共同鋪出來的路,不可能靠某一個人的力量走到今天。

      AI 的「人本」視角

      主持人:你覺得我們距離 AGI 還有多遠?按照現在的發展趨勢,我們能實現它嗎?需要更多技術突破嗎?現有的技術路徑足夠支撐我們走到那一步嗎?

      李飛飛:這是個很有意思的概念。我不確定有沒有誰真正給過 AGI 一個嚴謹的定義。不同的人有不同的理解,有人認為是讓機器擁有某種超能力,有人認為是讓機器成為社會里能獨立立足的主體,比如能自己創造價值。這樣的標準算是 AGI 嗎?

      作為科學家,我習慣非常嚴謹地看待問題。我進入這個領域,就是因為被“機器能否像人一樣思考和行動”這個大膽問題所吸引。對我來說,這一直是人工智能的核心目標。

      從這個角度看,我不覺得 AI 和 AGI 有本質區別。我們在某些方向上已經取得了不錯的進展,比如對話系統,但離全面實現人工智能還有一段距離。如果你現在去問 Alan Turing,他大概會說,這不就是我在二十世紀四十年代就提出的問題嗎。

      所以我不想陷入對 AI 和 AGI 的定義之爭。在我看來,AGI 更像是營銷語言,而不是科學術語。對我來說,人工智能就是我所追求的目標,也是整個領域的真正目標。大家愿意怎么稱呼它都可以。

      主持人:就像你前面說的,從 ImageNet 和 AlexNet 開始,我們靠著一些關鍵要素走到了今天,比如 GPU、數據、標注數據和模型算法,而 Transformer 架構似乎也是這條路線上的重要一步。

      你覺得這些現有要素能不能讓我們繼續做出強大十倍、足以改變世界的模型?我們還需要哪些突破?我知道我們待會會聊世界模型,那可能是其中一個方向,但除此之外,你覺得還有哪些瓶頸?換句話說,現在的技術是不是只要往上堆數據、堆算力、堆 GPU 就能繼續往前走?

      李飛飛:我覺得我們一定需要更多創新。增加數據、增加 GPU、放大模型規模,這些方向當然還有空間,但我始終相信我們需要更多根本性的創新。

      在人類的科學史上,沒有任何一門成熟的學科會說自己已經不需要創新了。人工智能雖然已經發展了幾十年,但相比其他學科,它仍然非常年輕,我們現在不過剛剛開始。

      舉個例子,我們之后會聊世界模型。你給一個當前的模型看一段辦公室的視頻,讓它數清楚里面有多少把椅子,這對幼兒園小朋友或者小學生來說都不難,可 AI 現在還做不到。更別說像牛頓那樣,通過觀察天體運動推導出適用于所有物體的運動規律。

      那種創造力、推理能力和抽象能力,我們現在完全無法讓機器具備。再看看情感智能,一個學生走進老師辦公室,談自己的動力、興趣、困擾,今天的對話系統在情緒理解和表達上還遠達不到這種水平。

      所以我們還有太多可以提升的地方,我完全不認為創新已經走到盡頭。

      語言之外,智能世界模型登場

      主持人:那你覺得什么是世界模型,它為什么如此重要?

      李飛飛:我這一輩子都在思考怎么推動 AI 向前走。過去幾年,學界和像 OpenAI 這樣的機構陸續推出的大型語言模型,對我這樣的長期研究者來說,都帶來了很強的啟發。

      我記得 GPT-2 推出時是 2020 年底,當時我在斯坦福大學以人為本人工智能研究所擔任聯合主任,現在依然在這個崗位,不過那時是全職投入。那時候公眾還意識不到大型語言模型的潛力,但我們研究者已經看到了未來的模樣。

      我和做自然語言處理的同事們聊過很多次,我們都覺得這項技術的影響會非常深遠。斯坦福的以人為本人工智能研究所 是最早建立完整基礎模型研究中心的機構之一,很多研究者還主導發表了第一篇關于基礎模型的論文,這些都令我很受鼓舞。

      不過我出身于視覺智能方向,我一直在想,除了語言之外,其實還有非常大的空間可以發展。

      因為人類很多重要能力,是依賴空間智能和對真實世界的理解完成的。你如果處在一個混亂的應急救援場景里,不管是火災、車禍還是自然災害,你會發現人們組織救援、阻止災情擴散、撲滅火勢,有大量能力是來自行動本身、來自對物體和環境的即時理解,還有對情境的把握。語言當然有用,但在很多情況下,光靠語言并不能讓你穿上消防服沖進去救人。

      這就是我一直反復思考的問題。我同時還做了大量機器人研究,漸漸意識到,要打通語言之外的其他智能,要真正連接具身智能和視覺智能,關鍵就在于機器理解世界的空間能力。

      在 2024 年的 TED 演講中,我談到空間智能和世界模型。其實這個想法早在 2022 年就開始成形了,來自我在機器人和計算機視覺方向的持續研究。后來我想得越來越清楚,我希望和最頂尖的技術人才合作,把這些能力盡快從實驗室帶到現實世界,于是我們創辦了 World Labs,名字里有 world,就是因為我們堅信世界建模和空間智能的巨大價值。

      主持人:很多人對聊天機器人很熟悉,會覺得大型語言模型就是一種對話工具。那世界模型是不是可以理解成,你描述一個場景,它就能生成一個能隨意探索的世界?我們之后會附上你們的產品鏈接,不過這個理解準確嗎?算是世界模型的一部分嗎?

      李飛飛:可以說是一部分。世界模型的一個直觀理解是,你可以用一句話或一張圖,在腦海中構建出任何世界,并且可以在這個世界里互動,比如觀察、走動、拿起物體、調整場景,同時還能在里面進行推理。

      如果使用這個世界模型的是機器人,它就應該能規劃路線、整理廚房之類的。所以世界模型更像一個基礎平臺,你可以在上面推理、互動、創造各種世界。

      主持人:你剛才說,要讓機器人真正能在現實世界里發揮作用,關鍵就在于理解世界的運行方式,這正是目前缺少的那一塊。

      李飛飛:首先,我覺得受影響的不只是機器人,但你說得很對。世界建模和空間智能確實是具身智能短板所在。同時,我們也不應該忽略人類本身作為具身主體的屬性,人類同樣能通過 AI 獲得能力提升。

      就像人類是依賴語言的生物,AI 在語言方面已經給我們提供了巨大幫助。可我們往往忽略了,作為具身主體的人類,其實也能從世界模型和空間智能模型中受益匪淺,就和機器人一樣。

      此外,這對設計領域也非常關鍵。人類在設計機器、建筑、家居用品等時都離不開對空間和物體的理解。再看看科學發現的過程,我特別想舉 DNA 結構發現的例子。Rosalind Franklin 拍攝的那張 X 射線衍射照片非常關鍵,那是一張二維平面圖像,展示的是交叉的衍射圖案。研究者們正是結合這張照片和其他信息,通過三維空間推理,推導出了 DNA 雙螺旋的三維結構。

      這種復雜結構不可能在二維層面得出,必須依賴三維空間思維和人類強大的空間智能。所以我認為,在科學發現領域,空間智能乃至 AI 輔助的空間智能同樣至關重要。

      「慘痛教訓」教不出機器人

      主持人:那為什么說“慘痛教訓”理論單獨用在機器人領域可能行不通?

      首先,“慘痛教訓”有不同的表述方式,但大家通常指的是 Richard S. Sutton 近期發表的那篇論文。他剛拿到圖靈獎,是強化學習領域非常重要的人物。Sutton 在論文里回顧了人工智能算法的發展,指出歷史上最終勝出的,往往是依賴海量數據的簡單模型,而不是依賴少量數據的復雜模型。

      這篇論文是 ImageNet 之后很多年發表的。對我來說,它一點都不慘痛,甚至可以說是一種甜蜜的驗證。這正是我當初做 ImageNet 的原因,我本來就相信大數據的價值。

      但你問為什么“慘痛教訓”單獨放在機器人領域可能不太奏效,原因有幾個。首先,我們要肯定當前的進展。機器人研究還處于非常早期的實驗階段,遠不如語言模型成熟。現在很多團隊都在嘗試不同的算法,其中有一些確實依賴大數據,所以大數據在機器人上依然會發揮作用。雷峰網(公眾號:雷峰網)

      不過機器人領域有一些特別的挑戰。第一是數據獲取難度更高。你可能會說現在可以用網絡視頻,確實最新的機器人研究開始這么做,這也能帶來一定幫助。但從我做計算機視覺和空間智能的角度來說,我真的很羨慕做自然語言處理的同事:他們的所有訓練數據都是文字,模型輸出也是文字。

      也就是說,訓練數據和訓練目標之間是完美對齊的。而機器人不是,空間智能也不是。我們的目標是讓機器人輸出動作,但訓練數據里恰恰缺少三維世界里的動作信息,而動作是機器人必須具備的核心能力。

      這就造成訓練過程有點方枘圓鑿,我們必須用其他方式來補這個缺口,比如加入遠程操控的數據或生成的數據,讓機器人也能依靠海量數據進行學習。我認為這是有希望的,因為我們做的世界建模,未來會給機器人提供大量這樣的信息來源。

      但我們也要保持冷靜,因為目前還在非常早期的階段,“慘痛教訓”能不能在機器人領域完全成立,還需要時間驗證。畢竟我們還沒真正解決機器人需要的大規模數據問題。

      還有一點需要記住,機器人是物理系統。這一點讓它們更像自動駕駛汽車,而不是大型語言模型。這點非常關鍵。讓機器人工作得很好,不只是軟件層面的事,還需要合適的硬件,以及明確的應用場景。

      想想自動駕駛汽車的發展:我的同事 Sebastian Thrun 帶著斯坦福團隊在 2005 年前后贏得了 DARPA 大賽。從那輛能在內華達沙漠跑一百三十英里的原型車,到今天舊金山街頭能看到的 Waymo,已經過了二十年,可我們仍然沒有完全攻克自動駕駛。

      而且自動駕駛比機器人簡單多了,自動駕駛只是讓一輛金屬盒子在二維平面上移動,目標是不撞任何東西。機器人則是在三維世界里運作的三維實體,它不僅不能撞東西,還要與物體互動。

      所以機器人技術的推進要素更多、難度更高,發展的周期會更長。當然有人會說,自動駕駛早期還在深度學習出現之前,現在深度學習可能會加速整個進程,我同意這一點,這也是我對機器人和空間智能感到興奮的原因。但別忘了,汽車行業已經非常成熟了,要規模化落地,還需要成熟的供應鏈、硬件體系和實際應用場景。

      所以現在正是研究這些問題的好時機。但你說得沒錯,我們大概率還會在機器人領域經歷不少真正意義上的慘痛教訓。

      主持人:在做這些工作的時候,你會不會經常對人類大腦感到敬畏?畢竟人類可以輕松完成很多復雜任務,而讓機器做到哪怕只是走路、不摔倒、不撞東西都這么難。這會不會讓你更加感嘆人類的能力?

      李飛飛:當然。人類大腦的能耗大概只有二十瓦,甚至比我所在房間里的燈泡還暗,但它卻能做到那么多事情。事實上,我在 AI 里投入得越深,就越敬畏人類本身。

      影子,與真正的世界

      主持人:我們再來聊聊你們剛推出的產品 Marble。它究竟是什么?

      李飛飛:Marble 是 World Labs 推出的第一款產品。World Labs 是一家專注前沿基礎模型的公司,由四位有深厚技術背景的創始人共同創辦。我的聯合創始人都來自人工智能、計算機圖形學和計算機視覺領域。我們一直相信,空間智能和世界建模的重要性不亞于語言模型,甚至在某些方面更有價值,而且兩者之間是相互支持的。

      所以我們希望抓住這個機會,打造一個深度技術實驗室,讓前沿模型真正走向產品。Marble 就是基于我們構建的前沿模型開發的應用。我們花了一年多時間,構建出了全球首個能夠真正生成三維世界的生成式模型。這件事的難度極高,研發過程也非常艱辛,我們的核心團隊來自許多頂尖技術團隊。

      就在一兩個月前,我們第一次實現了用一句話、一張圖片或幾張圖片作為提示,生成一個可以自由探索的三維世界。如果你戴上 VR 眼鏡,還能真的走進去。這項技術我們已經研究很久了,但當它真正成功的時候,我們自己都非常激動。

      我們也希望把它交到需要的人手中。我們知道,創作者、設計師、機器人仿真研究者、游戲開發者,還有任何需要可導航、可交互、沉浸式世界的人,都會在其中發現價值。

      所以我們發布了 Marble 作為第一步。雖然它仍處于早期,但已經是全球第一個能做到這一點的模型,也是第一款讓用戶通過提示詞創建三維世界的產品。

      作為做研究的人,這對我們來說也是一次學習。比如那些幫助用戶進入世界的“點”,其實是我們專門設計的可視化方式,不是模型本身。模型真正的任務是生成世界,而我們要找到方式讓用戶順利進入這個世界。

      我們的工程師嘗試了多個版本,最后選定用點云來引導用戶。對我們來說,看到一個不是模型本身、而是用于用戶體驗設計的小功能這么受歡迎,是一種特別的成就感。

      主持人:那如果有人現在就想體驗或使用 Marble,它已經可以用在哪些場景里?你們這次推出的目標是什么?

      李飛飛:首先是電影虛擬制作。影視團隊需要三維世界來做攝像機校準,讓演員在表演時,工作人員能準確控制鏡頭走位。我們已經看到特別好的應用效果。你在發布視頻中看到的內容,就是由一家虛擬制作公司完成的,我們和索尼合作,他們用 Marble 實現了視頻拍攝。

      技術藝術家和導演告訴我們,Marble 讓制作效率提高了大概四十倍。我們當時只有一個月時間完成這個項目,而且他們需要拍很多內容。Marble 極大地加快了視覺特效和虛擬制作的流程。

      第二個應用是游戲開發。用戶可以把 Marble 生成的場景導出為網格文件,直接導入 VR 游戲或其他自研游戲里。我們已經展示了相關案例。

      第三個是機器人仿真。我一直在做機器人訓練研究,其中最大的難題之一就是為訓練生成合成數據。這些數據必須非常多樣化,要來自不同環境,還要包含豐富的可操作物體,而通過計算機仿真生成是最高效的方式。

      如果不這樣做,人類必須手工創建每一個訓練場景,工作量會指數級增長。已經有研究團隊聯系到我們,希望用 Marble 來生成機器人訓練需要的合成環境。

      還有一些我們原本沒想到的應用。例如有個心理學研究團隊找到我們,他們研究某些精神疾病患者,需要不同特點的沉浸式環境來觀察大腦反應。但這類環境很難獲取,構建起來也很費時,而 Marble 能幾乎即時生成大量這樣的實驗場景。

      所以我們已經看到不少清晰的應用方向。視覺特效、游戲開發、仿真研究、設計領域的人都對 Marble 表現出強烈興趣。

      主持人:那 Marble 和其他視頻生成模型有什么區別?

      李飛飛:World Labs 的核心理念是,空間智能非常重要,而空間智能絕不只是生成視頻。

      視頻本質上是一種被動呈現的二維畫面。我很喜歡用柏拉圖的“洞穴寓言”來解釋視覺。想象一個囚犯被固定在洞穴里的椅子上,不能回頭,只能看見墻壁;而洞穴外的真實世界里,人們在表演,光線把他們的影子投射到墻上,囚犯只能通過這些影子來揣測真實發生了什么。

      這個例子雖然極端,但非常準確地刻畫了視覺的本質。我們總是從二維畫面中去理解一個三維甚至四維的世界。而對我來說,空間智能不是生成二維內容,而是讓模型具備生成、推理、交互、理解深度空間世界的能力。這正是 World Labs 專注的方向。

      當然,生成視頻本身也屬于空間智能的一部分。就在幾周前,我們展示了全球首個能在單塊 H100 GPU 上實時生成視頻的演示。

      所以我們的技術也能生成視頻,但 Marble 的核心區別在于:它讓創作者、設計師、開發者能夠使用一個真正具備三維結構的世界生成模型,用它來完成自己的工作。這就是 Marble 與現有視頻生成模型最大的不同。

      順便說一下,Marble 也支持導出視頻。比如你創建了一個霍比特人洞穴的世界,你可以根據自己的想法設計攝像機的移動軌跡,然后直接從 Marble 里導出這段視頻。

      主持人:打造這樣一款產品需要什么條件?比如團隊規模大嗎?用到多少 GPU?

      李飛飛:最核心的是“腦力”。每個人類的大腦功耗大概只有二十瓦,從數字上看很小,但正是億萬年的進化,讓我們擁有了這些能力。

      我們目前的團隊大概三十人左右,主要是研究員和研究工程師,也有設計和產品方面的同事。我們始終相信,要打造一家以空間智能深度技術為核心的公司,同時也要交付真正能用的產品。所以我們讓研發和產品化緊密結合。當然,我們也用到了大量 GPU,這一點毫無疑問。

      做前沿領域的無畏者

      主持人:你的這家公司是什么時候成立的?兩三年前?

      李飛飛:大概一年前,準確來說差不多十八個月。

      主持人:如果你能回到十八個月前,對那時候的自己悄悄說一句話,你希望告訴自己什么?

      李飛飛:我一直希望自己能提前洞察技術的未來。其實,能預見趨勢也是我們創業的優勢之一,我們通常能比絕大多數人更早看到方向。但即便如此,未知的一切和未來的挑戰依然讓人既緊張又興奮。

      我知道你問這個問題,更多是想聽聽我對技術未來的感悟。但其實從創業角度來看,我二十歲時也沒有創辦過這種規模的公司。十九歲的時候我開過一家干洗店,規模小太多了。后來我參與創立谷歌云的 AI 部門,也在斯坦福創辦了研究所,但這些經歷和如今的創業完全不是一回事。

      作為創業者,我覺得自己比二十歲左右的人更能承受這種高強度的節奏,但還是會不斷遇到意外。比如我沒想到 AI 領域的競爭會這么激烈,不管是模型、技術,還是人才,都卷得超乎想象。

      創辦公司時,我也完全沒想到頂尖人才的成本會高到這種程度。這類事情不斷讓我重新認識現實,也逼著我時刻保持敏銳。雷峰網

      主持人:那對于那些希望在人生中做出突破、走在時代前沿的人來說,你從一個地方到另一個地方、加入這些核心團隊的過程,是否有一條持續貫穿的主線?也許能夠給大家一些啟發。

      李飛飛:確實有。我也想過這個問題。很明顯,是好奇心和熱情把我帶入了 AI 領域,這更像是一種純粹的科學追求,我從不在乎 AI 當時是不是熱門。但至于我為什么會選那些特定的地方去工作,包括后來創辦 World Labs,背后有更深的原因。

      我很慶幸自己是一個在求知上無所畏懼的人。我在招年輕人的時候也很看重這一點。因為如果一個人想推動改變,就必須接受自己要去創造新事物,要進入無人探索的領域。意識到這一點后,你就得學會讓自己無畏。

      比如,當年我從普林斯頓跳槽到斯坦福時,我在普林斯頓的學術職位已經快拿到終身教職,也就是所謂的鐵飯碗。但我還是選擇了回斯坦福,因為我熱愛那所學校,那里的同事非常優秀,硅谷的生態也無比動人。我愿意冒險,從頭開始新的終身教職考核,還成為斯坦福人工智能實驗室的第一位女性主任。

      那時我其實還算年輕,但我愿意這么做,因為我在乎那個社群,也沒花太多時間擔心失敗。當然,我很幸運,資深教員都非常支持我。我只是在努力為這個領域做一些事情。

      后來加入谷歌也是類似的情況,我想和杰夫·迪恩、杰夫·辛頓這樣杰出的科學家共事。創辦 World Labs 也一樣,我對空間智能充滿熱情,也相信志同道合的人能夠一起創造出真正重要的東西。

      所以這就是貫穿我職業生涯的主線:我不會過度擔心那些可能會出錯的事情,因為如果想把它們一條條想清楚,那可太多了。

      主持人:你現在在斯坦福大學以人為本人工智能研究所主要負責哪些事務?

      李飛飛:以人為本人工智能研究所是我和幾位教授在 2018 年共同創辦的。當時我剛結束在谷歌的休假,面臨一個重要決定:繼續留在行業,還是回到學術界。

      在谷歌的經歷讓我真正意識到,AI 已經成為一項文明級別的技術,它對人類的重要性非常深遠。同一年,我在《紐約時報》發表了一篇文章,呼吁建立一套框架來指導 AI 的研發和應用,而這套框架必須以人類的善意和人的主體性為核心。

      我認為,斯坦福作為全球頂尖學府,位于孕育了英偉達、谷歌等公司的硅谷中央,應該承擔起思想領導的角色,建立這套以人為本的 AI 框架,并把它融入研究、教育、政策與生態建設。

      如今六七年過去了,以人為本人工智能研究所已經成為全球最大的 AI 研究所,專注于以人為中心的研究、教育、生態拓展和政策影響。研究所覆蓋斯坦福八個學院的數百位教授,領域從醫學、教育、可持續發展、商業,到工程、人文、法律等非常廣泛。

      我們支持跨學科研究,從數字人文、法律與治理,到藥物研發和新型算法。同時,我們也非常重視政策工作。在創辦研究所時,我就注意到硅谷和華盛頓、布魯塞爾等政策制定者之間缺乏溝通。而 AI 這么重要,我們必須讓更多人參與進來。

      主持人:聽你說完我才意識到,你做的事情遠比我想像的更多。這讓我想到 Charlie Munger 的那句話,“接受一個簡單的理念,并認真踐行它。” 你在多個領域通過不斷踐行自己的理念產生了非常深遠的影響。最后,你有什么想對聽眾說的嗎?

      李飛飛:我對 AI 的未來非常期待。我想回答一個我在世界各地旅行時常被問到的問題:“如果我是音樂家、中學老師、護士、會計師或農民,我在 AI 時代還有位置嗎?AI 會不會奪走我的生活或工作?”

      我認為這是關于 AI 最關鍵的問題。在硅谷,我們常常沒有好好和外界交流,只是拋出“無限生產力”“無限閑暇”“無限權力”這樣的詞匯。但 AI 的根本是關于人的。

      對這個問題,我的答案永遠是肯定的:每個人在 AI 時代都有自己的角色。你的位置取決于你想做什么、愿意做什么。任何技術都不應剝奪人的尊嚴,人的主體性必須始終處于技術研發、部署和治理的中心。

      如果你是年輕的藝術家,熱愛講故事,那就把 AI 當工具,用它來擴展你的創作邊界,甚至可以試試 Marble。你講故事的方式是獨特的,這個世界始終需要這樣的聲音,關鍵在于你如何用這項強大的工具更生動地表達它。

      如果你是一位即將退休的農民,AI 也與你密切相關。作為公民,你有權參與社區決策,對 AI 的使用方式發聲,也可以鼓勵周圍的人用 AI 讓生活更便利。

      如果你是護士,我想特別告訴你,在我的職業生涯中,我投入了大量精力在醫療和健康研究上。我相信醫護人員理應得到 AI 的支持,無論是提供更多信息的智能攝像頭,還是輔助照護的機器人。我們的護士太辛苦了,而隨著社會老齡化加劇,我們需要更多支持去照顧他人,AI 完全可以在這方面幫助我們。

      所以我想說,即使作為一個深度參與技術的人,我也真心相信:每一個人,在 AI 時代都有屬于自己的位置。

      主持人:這個結尾太精彩了,完美呼應了我們開場時的主題。AI 的未來取決于我們每一個人,我們也要為它在生活中產生的影響承擔起責任。

      博客地址:https://www.lennysnewsletter.com/p/the-godmother-of-ai

      視頻地址:https://www.youtube.com/watch?v=Ctjiatnd6Xk

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      李飛飛最新思考:語言模型救不了機器人

      分享:
      相關文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 亚洲欧美另类久久久精品| 国产在线观看无码免费视频 | 国产欧美一区二区三区免费视频| www.欧美精品| 国产无遮挡性视频免费看| 亚洲成人高清无码| 国产动作大片中文字幕| 国产又色又爽又黄刺激视频| 成人自拍偷拍| 亚洲日韩一区二区| 亚洲自拍中文| 26uuu欧美日本| 久久亚洲精品中文字幕馆| 亚洲一区二区三区免费av在线| 亚洲国产精彩中文乱码av| 熟女白浆精品一区二区| 少妇人妻互换不带套| 婷婷色六月| 欧美乱人伦人妻中文字幕| 国产精品高潮呻吟久久| 精品无码毛片| 亚洲成人网在线| 午夜福利宅福利国产精品| 国产精品久久久久无码网站| 爆乳高潮喷水无码正在播放| 亚洲欧美另类久久久精品| 97欧美精品系列一区二区| 26uuu另类亚洲欧美日本| 亚洲第一网站| 麻豆国产尤物av尤物在线观看 | 狠狠v日韩v欧美v| 日韩精品无码不卡无码| 91色| 最新的国产成人精品2022| 电影久久久久久| 欧美成人精品a∨在线观看| 久久www免费人成一看片| 广南县| 激情无码人妻又粗又大| 一区二区淫网| 国产成人无码专区|