0
| 本文作者: 胡清文 | 2025-12-31 17:02 |
12月12日,第八屆GAIR全球人工智能與機(jī)器人大會(huì)在深圳正式啟幕。
本次大會(huì)為期兩天,由GAIR研究院與雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))聯(lián)合主辦,高文院士任指導(dǎo)委員會(huì)主席,楊強(qiáng)院士與朱曉蕊教授任大會(huì)主席。
作為觀測(cè)AI技術(shù)演進(jìn)與生態(tài)變遷的重要窗口,GAIR大會(huì)自2016年創(chuàng)辦以來(lái)以來(lái),始終與全球AI發(fā)展的脈搏同頻共振,見(jiàn)證了技術(shù)浪潮從實(shí)驗(yàn)室涌向產(chǎn)業(yè)深海。2025年,是大模型從“技術(shù)破壁”邁向“價(jià)值深耕”的關(guān)鍵節(jié)點(diǎn),值此之際GAIR攜手智者觸摸AI最前沿脈動(dòng),共同洞見(jiàn)產(chǎn)業(yè)深層邏輯。
本次大會(huì)上,京東集團(tuán)副總裁、首席數(shù)據(jù)科學(xué)家、IEEE Fellow、ACM杰出科學(xué)家鄭宇教授親臨現(xiàn)場(chǎng),為參會(huì)者帶來(lái)了一場(chǎng)鞭辟入里的報(bào)告分享。
鄭宇教授指出,人工智能過(guò)往取得的顯著成功主要集中在虛擬世界,如大語(yǔ)言模型、數(shù)字孿生等,但真正的產(chǎn)業(yè)價(jià)值需要進(jìn)入物理世界,即問(wèn)題與數(shù)據(jù)的取用和反饋都要體現(xiàn)在物理世界層面。
基于此,鄭宇教授回顧了時(shí)空AI的發(fā)展歷程,并以雄安新區(qū)的智能城市建設(shè)為標(biāo)桿案例,進(jìn)一步分析了城市計(jì)算與具身智能之間的關(guān)系。他提出,城市計(jì)算可作為具身智能的方法論,而具身智能將成為城市計(jì)算的核心組件。未來(lái)城市有望成為“巨大的具身智慧體”,而管理城市就像玩游戲。
他認(rèn)為,當(dāng)下時(shí)空AI要在物理世界發(fā)揮價(jià)值需克服三大挑戰(zhàn):
1、數(shù)據(jù)稀缺體量小:傳感器不可能遍布物理世界的任何地方,數(shù)據(jù)也不能無(wú)時(shí)無(wú)刻獲得,同時(shí)數(shù)據(jù)采集成本高周期長(zhǎng)。
2、模型時(shí)空能力弱:目前尚有很多物理規(guī)律處于未知狀態(tài),物理世界觀測(cè)方法的有限性,以及人為因素的不確定性,三者疊加導(dǎo)致時(shí)空AI的建模非常困難。
3、智能方案閉環(huán)難:首先需要對(duì)物理世界進(jìn)行觀測(cè)獲得數(shù)字信號(hào),根據(jù)數(shù)據(jù)將建模形成的結(jié)果反饋給人,進(jìn)而對(duì)結(jié)果進(jìn)行修訂和反饋,最終將處理后的結(jié)果執(zhí)行到物理世界,才能形成智能方案的完整閉環(huán),要完成這樣的閉環(huán)并不容易。
以下是鄭宇教授演講的精彩內(nèi)容,雷峰網(wǎng)作了不改變?cè)獾恼砼c編輯:
01
何為時(shí)空AI?
我們這個(gè)工作,其實(shí)已經(jīng)做了二十年,但最近才用時(shí)空AI作為話題來(lái)做報(bào)告,原因有兩個(gè):第一,人工智能要進(jìn)入物理世界,必須要理解時(shí)空,現(xiàn)有的算法存在很大的瓶頸。
第二,我的好朋友李飛飛從視覺(jué)的角度出發(fā),她發(fā)現(xiàn)視頻中的內(nèi)容不符合空間約束和物理規(guī)律,進(jìn)而提出了“空間智能”,在整個(gè)業(yè)界非常火。
所以今天我以《時(shí)空AI:人工智能進(jìn)入物理世界的基礎(chǔ)理論和關(guān)鍵技術(shù)》為報(bào)告題目,來(lái)給跟大家講講時(shí)空AI的來(lái)龍去脈。
一方面,人工智能過(guò)往取得的成功主要集中在虛擬世界,包括大語(yǔ)言模型、圖生文、文生圖等,數(shù)據(jù)和問(wèn)題也都集中于此。很重要,但遠(yuǎn)不夠。
另一方面,我們一部分的工作,在感知完物理世界的狀態(tài)之后,將其融入到虛擬世界,但解決的問(wèn)題還是落在了虛擬世界。例如VR游戲中的體感傳感器,可以感知人的姿態(tài),幫助我們把游戲玩得更好,但本質(zhì)還是解決虛擬世界的問(wèn)題。數(shù)字人也是如此,它可以通過(guò)感知面部表情,幫助數(shù)字人更好地理解人的行為,但仍屬于虛擬世界。
因此,人工智能要想發(fā)揮巨大的產(chǎn)業(yè)價(jià)值,一定要進(jìn)入物理世界。也就是說(shuō),問(wèn)題和數(shù)據(jù)都要來(lái)自于物理世界,隨后通過(guò)感知,將數(shù)據(jù)在物理世界完成建模、分析之后,再反饋回物理世界。如具身智能、無(wú)人駕駛、城市應(yīng)急管理等,都屬于人工智能在物理世界的應(yīng)用。
02
時(shí)空AI的三大挑戰(zhàn)是什么?
人工智能要進(jìn)入物理世界,面臨三方面的挑戰(zhàn):
1、數(shù)據(jù)在物理世界非常稀缺,采集數(shù)據(jù)的成本非常高,周期也特別長(zhǎng)。
2、物理世界要解決的問(wèn)題,通常需要了解行業(yè)知識(shí),而行業(yè)知識(shí)的積累需要時(shí)間。有時(shí)候要解決一個(gè)領(lǐng)域的問(wèn)題,往往會(huì)發(fā)現(xiàn)這個(gè)領(lǐng)域的數(shù)據(jù)不足,還需要做跨領(lǐng)域數(shù)據(jù)融合,對(duì)多個(gè)領(lǐng)域的數(shù)據(jù)知識(shí)進(jìn)行理解,要做到這一點(diǎn)非常難。
3、現(xiàn)有模型的應(yīng)用,如自然語(yǔ)言處理、圖像聲音處理等,都不是出于時(shí)空角度的考量,要如何對(duì)時(shí)間空間屬性進(jìn)行很好地捕捉和體現(xiàn)?這也是一個(gè)難點(diǎn)。

今天我主要給大家講講第三個(gè)問(wèn)題。
關(guān)于時(shí)空AI這個(gè)題目,李飛飛院士提的是Special AI,李德仁院士講的是時(shí)空AI,他們加了一個(gè)Geo,變成Geo Special AI。那么這兩個(gè)東西是否一樣呢?我認(rèn)為,本質(zhì)上是一樣的。
無(wú)論是使用攝像頭、遙感還是地面?zhèn)鞲衅鳎瑓^(qū)別只在于感知的手段不同,而感知的對(duì)象都是這個(gè)物理世界。由于物理世界本身具有時(shí)間特性和空間特性,所以感知的結(jié)果才會(huì)自帶時(shí)空屬性。它們只是在不同的角度,通過(guò)不同的感知方式,在不同的尺度和力度上做感知。
過(guò)去沒(méi)有時(shí)空AI的相關(guān)定義,現(xiàn)在我們給它一個(gè)定義,大家一起探討:
基于時(shí)間和空間維度的觀測(cè),以帶有時(shí)空屬性的數(shù)據(jù)為主要描述,通過(guò)與物理世界的動(dòng)態(tài)交互和循環(huán)反饋,來(lái)感知、理解、影響和掌控物理世界中的物體行為和自然現(xiàn)象的人工智能理論、機(jī)器學(xué)習(xí)方法和數(shù)據(jù)挖掘技術(shù),就是時(shí)空AI。

這其中包含很多定語(yǔ),比如物理世界,感知狀態(tài)。
那么物理世界與虛擬世界到底有什么不同?總結(jié)下來(lái)主要有四個(gè)方面:
第一是空間約束,包括江河、湖泊、海洋、山川、道路,這都是無(wú)法穿越的。
第二是物理規(guī)律,包括力學(xué)規(guī)律、能量守恒定律、星際運(yùn)行法則等。
第三是物種行為,包括動(dòng)物遷徙、人類活動(dòng)、生物繁衍等。
第四是運(yùn)行法則,包括城市運(yùn)行管理、交通管理規(guī)則、航空運(yùn)輸法則。
這些不同疊加在一起,使得物理世界與虛擬世界產(chǎn)生顯著差異,而這些不同也是我們的機(jī)器學(xué)習(xí)模型需要重點(diǎn)捕獲的部分。
在物理世界中,我們習(xí)慣以時(shí)間+空間相結(jié)合來(lái)表述我們的觀測(cè)結(jié)果,比如幾點(diǎn)幾分在哪里,要去什么地方,這些都是以時(shí)間節(jié)點(diǎn)+空間坐標(biāo)的方式來(lái)表述的。觀測(cè)方法上,既可以用傳感器來(lái)感知,也可以用人來(lái)感知。
相對(duì)于虛擬世界,物理世界的AI交互方式比較復(fù)雜。首先需要對(duì)物理世界進(jìn)行觀測(cè),獲得數(shù)字信號(hào),數(shù)字信號(hào)建模之后形成的結(jié)果反饋給人,進(jìn)而對(duì)結(jié)果進(jìn)行修訂和反饋,最終將處理后的結(jié)果執(zhí)行到物理世界,形成完整閉環(huán)。
這其中有很大部分人的因素,人不僅需要參于觀測(cè)、模型設(shè)計(jì)、反饋給予,最終也是反饋的執(zhí)行者之一。例如在無(wú)人駕駛過(guò)程中,人不一定會(huì)完全執(zhí)行AI的指令,這一切人力因素都使得物理世界的AI交互會(huì)變得非常復(fù)雜。
在這個(gè)基礎(chǔ)上,如前文所講,當(dāng)下AI進(jìn)入物理世界的一大難點(diǎn)在于數(shù)據(jù)的不完備。傳感器不可能遍布任何地方,數(shù)據(jù)也不能無(wú)時(shí)無(wú)刻獲得。
對(duì)此我們的解決方法是,對(duì)觀測(cè)數(shù)據(jù)中的時(shí)間屬性和空間屬性進(jìn)行提煉和理解。
其中,時(shí)間屬性包含臨近性、周期性、趨勢(shì)性等特性,例如今天早上8點(diǎn)的交通流量,跟昨天早上8點(diǎn)的交通流量相似,即便它們隔了24小時(shí),這就是臨近性。但隨著天氣轉(zhuǎn)冷,大家起床越來(lái)越晚,早高峰隨之得越來(lái)越晚,這就是趨勢(shì)性。
空間屬性方面,空間屬性又包括空間距離、空間層次、及地理學(xué)第一定律等特性。例如一個(gè)城市包括市、區(qū)、街、小區(qū)、樓棟、單元門、房間、座位,這是空間的層次感。

只有將這些空間屬性運(yùn)用到在AI模型當(dāng)中,才能做到提效和降低復(fù)雜度。
到這里,時(shí)空特性我們已經(jīng)清楚地掌握了,大部分的空間約束也都是已知的,可以通過(guò)建模、衛(wèi)星遙感、高精度地圖等得到,那么我們還面臨什么問(wèn)題呢?
首先,仍有很多物理規(guī)律是我們所未知的,需要等待物理學(xué)家去挖掘。其次,由于觀測(cè)方法的有限性,物理世界觀測(cè)數(shù)據(jù)存在不足或缺失等問(wèn)題,最后,就是上面提過(guò)的人的因素。這三個(gè)方面疊加到一塊,使得我們的時(shí)空AI建模非常復(fù)雜、非常困難。
因此,對(duì)于AI在物理世界的實(shí)踐與應(yīng)用,大家要有一個(gè)正確的認(rèn)知,并非如很多新聞所講的日新月異,人形機(jī)器人即將迅速普及等等。如果不花上數(shù)十年時(shí)間,底層理論不攻破,那些是做不出來(lái)的。前途很光明,但道路非常曲折,需要大家耐心攻堅(jiān)關(guān)鍵技術(shù)和基本理論。
那么難道因?yàn)檫€沒(méi)有完全完備,我們就不做了嗎?當(dāng)然不是,現(xiàn)在可以用思想先解決一些問(wèn)題。
因?yàn)槲覀兡玫降氖且恍в袝r(shí)空屬性的觀測(cè)數(shù)據(jù),這是很多已知以及未知的綜合關(guān)鍵結(jié)果。所以在解決問(wèn)題的時(shí)候,需要的是關(guān)鍵決策動(dòng)作,比如開(kāi)關(guān)、紅綠燈、左右轉(zhuǎn)、開(kāi)閘放水、調(diào)度人力和車輛,這些都是時(shí)空動(dòng)作。
本質(zhì)上,我們需要在觀測(cè)的時(shí)空數(shù)據(jù)與執(zhí)行的時(shí)空數(shù)據(jù)之間建立映射。即便很多規(guī)律目前并不清楚,但也可以做一部分應(yīng)用。要做好這個(gè)應(yīng)用,就要充分利用好已知的物理學(xué)規(guī)律和時(shí)空數(shù)據(jù)的特性,把我們的模型變得更加精準(zhǔn)、更加簡(jiǎn)潔,使模型更好地理解物理世界。
從數(shù)據(jù)到數(shù)據(jù)的映射,加上時(shí)空屬性和物理學(xué)規(guī)律的約束,在這種轉(zhuǎn)換之下仍然有挑戰(zhàn),包括數(shù)據(jù)量小、時(shí)空如何建模、智能方案怎么閉環(huán)等問(wèn)題。
因此,在過(guò)去二十年,我們團(tuán)隊(duì)一直在這個(gè)領(lǐng)域,按照這個(gè)方法論和框架深耕。
首先,我們要洞悉時(shí)空規(guī)律的特性。其次,要設(shè)計(jì)時(shí)空AI建模方法,包括兩大類,一類是經(jīng)典時(shí)空特征工程+經(jīng)典機(jī)器學(xué)習(xí)方法,另一類是時(shí)空表征學(xué)習(xí)+時(shí)空深度學(xué)習(xí)的方法。這兩類方法各有千秋,在不同的場(chǎng)景有不同價(jià)值。最后,要提供一套時(shí)空AI的機(jī)器學(xué)習(xí)框架,幫助大家快速構(gòu)建端到端的學(xué)習(xí)方法。
有了這套體系之后,可以把模型的復(fù)雜度降低90%,算法精度可以提升20%,研發(fā)效率提升100%,這樣就能解決我們剛剛說(shuō)的三個(gè)挑戰(zhàn),實(shí)現(xiàn)價(jià)值。
03
時(shí)空AI已走過(guò)五大階段
下面,我們一起回顧一下時(shí)空AI的發(fā)展歷程。
1、1960-1995,時(shí)空經(jīng)典模型
人去采樣,產(chǎn)生了少量的讀數(shù),根據(jù)少量的讀數(shù)和經(jīng)典假設(shè),得出簡(jiǎn)單的基于距離的反比差值。比如人去打井,沒(méi)有打井的地方讀數(shù)是多少,并不知道,所以用距離的反比作為權(quán)重來(lái)看讀數(shù),相鄰兩個(gè)時(shí)間點(diǎn)的讀數(shù),隨著時(shí)間差的擴(kuò)大,指數(shù)衰減。直到今天,這個(gè)統(tǒng)計(jì)方法仍然有用,只不過(guò)在一些局部方面,它不那么精準(zhǔn)。
2、1995-2008,時(shí)空模式發(fā)掘
1995年,韓家煒老師做了關(guān)于時(shí)空關(guān)聯(lián)規(guī)則的研究。他發(fā)現(xiàn),如果一條鐵路經(jīng)過(guò)一個(gè)大城市,那么這個(gè)城市大概率臨河或臨湖。后面Hans-Peter提出基于密度的聚類,其實(shí)是對(duì)于空間的模式發(fā)現(xiàn)。包括Shashi Shekhar發(fā)現(xiàn),麥當(dāng)勞和肯德基經(jīng)常一起出現(xiàn)。這些都是時(shí)空模式發(fā)掘,用的是空間數(shù)據(jù)庫(kù)的技術(shù),采用了空間信息,并沒(méi)有考慮時(shí)間。
在這一階段,相關(guān)研究開(kāi)始在物體軌跡中找到它們的移動(dòng)模式,然后我們開(kāi)始將它應(yīng)用到更多場(chǎng)景中。
打個(gè)比方,很多物體并非一直在一塊,可能剛開(kāi)始在一塊,然后分開(kāi)了,最后又合到一塊。例如疫情防控期間的密接,剛開(kāi)始大家都待在同一個(gè)小區(qū)里,距離很近,隨后A去買菜了,B去看電影了,C去吃飯了。但只要ABC待在一起的時(shí)間足夠長(zhǎng)、距離足夠近,就是密接,而我們的算法可以在秒級(jí)以內(nèi)反饋回來(lái)結(jié)果。
這兩個(gè)例子融入了時(shí)間的特性,是時(shí)空的模式發(fā)掘,但用的還是Data Base的方法。我們團(tuán)隊(duì)在2017年,提出了第一個(gè)面向時(shí)空數(shù)據(jù)專有的機(jī)器學(xué)習(xí)算法。并不是說(shuō)以前沒(méi)有人把機(jī)器學(xué)習(xí)算法用到時(shí)空數(shù)據(jù),而是做出面向時(shí)空數(shù)據(jù)專有的時(shí)空特征工程和時(shí)空經(jīng)典機(jī)器學(xué)習(xí)模型,我們團(tuán)隊(duì)是第一個(gè)。
3、2009-2016,時(shí)空經(jīng)典機(jī)器學(xué)習(xí)
接下來(lái)這個(gè)例子,就是通過(guò)經(jīng)典機(jī)器學(xué)習(xí)模型加上時(shí)空特征工程來(lái)完成的工作。2016年霧霾席卷整個(gè)中國(guó),北京只有38個(gè)空氣質(zhì)量檢測(cè)站點(diǎn),而部署一個(gè)空氣質(zhì)量監(jiān)測(cè)站點(diǎn),那個(gè)時(shí)候需要100多萬(wàn),同時(shí)還需要人力去維護(hù)。而且城市的空氣質(zhì)量高度不均勻,是非線性的,受很多復(fù)雜因素的影響,包括地面的擴(kuò)散條件、污染源的分布等等。
用過(guò)去經(jīng)典的物理學(xué)模型,去推算那些沒(méi)有站點(diǎn)的地方空氣質(zhì)量是多少,只能做到60%的精度。而我們通過(guò)大數(shù)據(jù)和人工智能的方法,將精度做到了80%,提高了20%以上。因?yàn)槲廴疚锛扔斜镜嘏欧牛灿型饷娴臄U(kuò)散,以及由本地排放和外面污染物所產(chǎn)生的二次化學(xué)反應(yīng),我們?cè)谶@些事實(shí)的基礎(chǔ)上將模型做了迭代。
高精度的預(yù)測(cè)結(jié)果非常重要,如果政府能夠知道明天的空氣質(zhì)量從500變成50,就不會(huì)再關(guān)閉工廠和限流了,而這一個(gè)決策價(jià)值就是10億以上的GDP。
這個(gè)工作我們做了五年才把它真正做好,最后中國(guó)300多個(gè)城市都用這個(gè)技術(shù),節(jié)約了國(guó)家100多億的污染治理費(fèi)用。2004年這個(gè)工作得了SIGKDD的Test-of-Time Award,同時(shí)也是這個(gè)領(lǐng)域中最高的技術(shù)單項(xiàng)獎(jiǎng)。
去做報(bào)告的時(shí)候,美國(guó)人就問(wèn)我們這個(gè)想法是怎么想到的?有兩個(gè)原因,一個(gè)原因是我學(xué)了很多行業(yè)知識(shí),知道污染物是由本地排放、外面擴(kuò)散以及二次化學(xué)反應(yīng),所以模型能夠很好地耦合這個(gè)問(wèn)題。另一個(gè)原因,是我晚上做夢(mèng)的時(shí)候想到的。那段時(shí)間工作進(jìn)展很不順利,別人說(shuō)你不要搞了,直到有天夜晚我終于在夢(mèng)中找到了答案,開(kāi)心到笑醒了,然后趕緊爬起來(lái)把這個(gè)答案寫了下來(lái)。
日有所思,夜有所夢(mèng),念念不忘,必有回響,堅(jiān)持做一件事,做到極致,一定會(huì)成功。技術(shù)本身沒(méi)那么重要,但同學(xué)們應(yīng)該學(xué)會(huì)這一點(diǎn)。
4、2016-2030,時(shí)空大模型
不是有了深度學(xué)習(xí)技術(shù),就得什么都用深度學(xué)習(xí),而是應(yīng)該用深度學(xué)習(xí)做的,才用深度學(xué)習(xí)。當(dāng)空間和時(shí)間跨度特別大的,因素特別復(fù)雜的,數(shù)據(jù)量特別大的時(shí)候,可以考慮用深度學(xué)習(xí)來(lái)做。
這個(gè)案例,是當(dāng)時(shí)外灘踩踏事件讓我們產(chǎn)生的思考,而在深度學(xué)習(xí)出來(lái)之前,這個(gè)問(wèn)題是解決不了的。如果我們把每個(gè)格子看成一個(gè)點(diǎn),觀察有多少個(gè)人進(jìn)和出,要考慮很多復(fù)雜因素:比如這個(gè)格子前幾個(gè)小時(shí)有多少人進(jìn)和出?這個(gè)格子周邊的格子有多少人進(jìn)和出?但是你想不到的是,跟這個(gè)格子距離很遠(yuǎn)的那些格子的人流量變化,也會(huì)影響到這個(gè)格子未來(lái)的人流量變化。
當(dāng)一個(gè)地方搞活動(dòng)發(fā)生大事件的時(shí)候,會(huì)有很多人從很遠(yuǎn)的地方坐地鐵過(guò)來(lái),不經(jīng)過(guò)你周邊就來(lái)到了這里,外灘事件就是這樣發(fā)生的。一個(gè)格子的流量,跟全城的每一個(gè)格子都息息相關(guān)互相影響,是沒(méi)有辦法預(yù)測(cè)的。
那個(gè)時(shí)候最好的model是圖模型,將城市劃成均勻的網(wǎng)格,例如2000個(gè)節(jié)點(diǎn),2000×2000的邊等等,數(shù)量巨大到根本算不出來(lái),所以我們提出了第一個(gè)面向時(shí)空數(shù)據(jù)的深度學(xué)習(xí)模型,從此進(jìn)入了時(shí)空大模型階段。
后面會(huì)發(fā)現(xiàn),城市中的區(qū)域并不是均一的網(wǎng)格,而是由非規(guī)則的道路和河流共同構(gòu)造的非規(guī)則區(qū)域。因此我們用了新的方法,一個(gè)區(qū)域只要有流量經(jīng)過(guò),就連成一個(gè)邊,由每一個(gè)幀構(gòu)造成時(shí)空?qǐng)D來(lái)做時(shí)空?qǐng)D卷積,提出了面向時(shí)空數(shù)據(jù)的時(shí)空?qǐng)D卷積模型,能夠知道不同區(qū)域之間的轉(zhuǎn)入和轉(zhuǎn)出,比如人從哪里來(lái)、去到哪里。要從源頭上治理踩踏,這一點(diǎn)很關(guān)鍵。
于是我們攻堅(jiān)進(jìn)和出的預(yù)測(cè),做出來(lái)了面向時(shí)空數(shù)據(jù)的模型,復(fù)雜度極高,數(shù)據(jù)更稀疏,這項(xiàng)工作我們一做又是六年。
5、2023-2035,城市大模型
這個(gè)階段,首先要做的就是跨域多源多模數(shù)據(jù)融合。
要想真正要做成產(chǎn)業(yè)級(jí)應(yīng)用,只有大模型是不夠的,還要加上深度學(xué)習(xí),而且我們面向的城市大模型,不光只是簡(jiǎn)單的時(shí)空大模型,需要多元數(shù)據(jù)融合,還得加上文本、語(yǔ)音以及視頻。
關(guān)于多模態(tài)的文章,近兩年可能有10萬(wàn)篇以上了,但很多講的都是單域的多源多模數(shù)據(jù)融合。例如機(jī)器人有很多傳感器,包括視覺(jué)、聽(tīng)覺(jué)、壓力,但本質(zhì)來(lái)說(shuō),這些傳感器從一開(kāi)始就是幫助機(jī)器人理解它周邊的情況和環(huán)境。也就是說(shuō),不需要人為選擇,數(shù)據(jù)產(chǎn)生之后,天然是對(duì)齊的。不用管它為什么對(duì)齊,你只需要做how,不需要去問(wèn)what或why。
就像我們剛剛做的預(yù)測(cè),光用交通數(shù)據(jù)肯定不行,好比氣象局做天氣預(yù)報(bào),并不是為了交通流量預(yù)測(cè)而做的預(yù)報(bào),還需要思考需要的數(shù)據(jù)在什么地方,以及這些數(shù)據(jù)為什么可以跟我的這些數(shù)據(jù)進(jìn)行融合,并解決這些問(wèn)題。這兩個(gè)問(wèn)題非常復(fù)雜,而真實(shí)世界都是這樣的問(wèn)題。
城市知識(shí)體系,是另一個(gè)我們需要準(zhǔn)備的,它是將城市數(shù)據(jù)向知識(shí)轉(zhuǎn)化的路徑和方法論。城市知識(shí)體系包括四大環(huán)節(jié):城市知識(shí)體系內(nèi)容、城市知識(shí)體系的表達(dá)、城市知識(shí)體系的產(chǎn)生以及城市知識(shí)體系的應(yīng)用。其中,城市知識(shí)體系內(nèi)容,包括人力事務(wù)組織以及它們的屬性和它們關(guān)系的屬性,但這些都是看不見(jiàn)、摸不著的,需要變成數(shù)據(jù)。
再往后就是真正的城市智能體。城市智能體跟具身智能很像,具身智能的多模態(tài)感知、感知要和行動(dòng)切合等特點(diǎn),跟城市計(jì)算一開(kāi)始提出的理念一模一樣。城市計(jì)算,可以作為實(shí)現(xiàn)具身智能的方法論和計(jì)算框架。具身智能,可以成為城市計(jì)算整個(gè)整體中的一個(gè)部件。
當(dāng)整個(gè)城市都實(shí)現(xiàn)了具身智能之后,整個(gè)城市就是一個(gè)巨大的具身智能體。具身智能并不是機(jī)器人,也不是人形機(jī)器人。所有AI與物理世界實(shí)體的結(jié)合,只要滿足剛剛說(shuō)的特性自我迭代以及不斷演進(jìn)的,都是具身智能,它是區(qū)別于離身智能的定義。大家千萬(wàn)不要認(rèn)為只有宇樹搞了機(jī)器人具身智能,這些都是具身智能。
未來(lái),這個(gè)超級(jí)智能體要怎么運(yùn)轉(zhuǎn)?
通過(guò)城市感知,第一是及時(shí)反饋的感知——馬上決策,比如馬上剎車就剎車,馬上開(kāi)閘就開(kāi)閘。第二是感知要往上走,要跟更大的范圍融合。面向三類數(shù)據(jù),分別有各自的自動(dòng)化元件和數(shù)據(jù)治理體系,形成面向結(jié)構(gòu)化、非結(jié)構(gòu)化和時(shí)空數(shù)據(jù)的標(biāo)準(zhǔn)數(shù)據(jù)資源體系。這些東西一定要自動(dòng)化去做,不能人工去做。
再往上,有各種查找的工具對(duì)應(yīng)分析層,包含面向三類不同數(shù)據(jù)的三種大模型。不是把大語(yǔ)言模型用到時(shí)空了結(jié)構(gòu)化數(shù)據(jù),而是面向結(jié)構(gòu)化,有專門的結(jié)構(gòu)化模型。再往上,有一個(gè)人機(jī)交互界面,并且有很多Agent可以調(diào)用下面的能力來(lái)服務(wù)于大家。執(zhí)行完之后,這個(gè)結(jié)果又反饋到物理世界,形成閉環(huán)、循環(huán),不斷演進(jìn),這就是一個(gè)真正的城市智能體。
04
雄安新區(qū)正在成為智能城市“新樣本”
那么上述這些要在哪里實(shí)現(xiàn)呢?雄安。
雄安就是城市計(jì)算指導(dǎo)下的實(shí)踐,目前我們已經(jīng)做到第三期了。雄安的智能城市是以城市計(jì)算理論為支撐,以城市計(jì)算理論的載體城市操作系統(tǒng)為平臺(tái)來(lái)開(kāi)展。總書記提出了一個(gè)需求:世界眼光、國(guó)際標(biāo)準(zhǔn)、中國(guó)特色,高點(diǎn)定位。
這個(gè)中心2022年正式投產(chǎn)運(yùn)行,從我做這個(gè)工作到現(xiàn)在,16年了才有了一點(diǎn)水花。所以真正想做成一件大事,3~5年根本不夠,10年可能才剛有成效,15年才有點(diǎn)起色,需要長(zhǎng)期支持。
我們看一下雄安的真實(shí)情況,這是基于雄安城市操作系統(tǒng)實(shí)現(xiàn)的數(shù)字孿生,并且是經(jīng)過(guò)脫敏之后的結(jié)果。現(xiàn)在雄安的所有數(shù)據(jù),無(wú)論是消費(fèi)的、地鐵的、公交的、政務(wù)的,還是民生的水電氣熱,全部會(huì)實(shí)時(shí)進(jìn)到我們的系統(tǒng)當(dāng)中,經(jīng)過(guò)實(shí)時(shí)分析、處理、挖掘提供服務(wù)。比如A點(diǎn)發(fā)生了一起交通事故,我們?nèi)ヅ袛嗨挠绊懛秶⑶医o周邊的出行人員推薦合理的繞行線路。
再看雄安的水電氣熱的生命線數(shù)據(jù),通過(guò)對(duì)各區(qū)域的用電量負(fù)荷分析,我們能知道用電量的波峰和波谷的差異化變化,從而更合理地制定電價(jià)策略,引導(dǎo)大家更合理地用電,以及根據(jù)每個(gè)區(qū)域的用電負(fù)荷變化做自動(dòng)化的擴(kuò)容,避免電壓器燒壞引起火災(zāi)。
對(duì)于燃?xì)夤芫W(wǎng),通過(guò)人工智能算法檢測(cè)到異常之后,在它爆炸之前就提前預(yù)警,我們會(huì)調(diào)取真實(shí)世界的物理攝像頭核實(shí)情況并進(jìn)行驗(yàn)證,然后查找周邊最近的工作人員,一鍵點(diǎn)擊這個(gè)工作人員,隨后進(jìn)行派單,完成任務(wù)。完成之后,這個(gè)結(jié)果會(huì)實(shí)時(shí)反饋到虛擬世界,形成閉環(huán),就像玩游戲一樣去管理整個(gè)城市。
對(duì)于雄安所有的人流量情況,人口結(jié)構(gòu)變化、年齡變化,我們都能實(shí)時(shí)知道。以及雄安的水質(zhì),空氣質(zhì)量未來(lái)48小時(shí)的變化等等,都是用跨域多元多模式融合的方法來(lái)實(shí)現(xiàn)的。
雄安的公共安全管理,以雄安新區(qū)的白洋淀為例,不僅能知道所有游客的來(lái)源,分析游客當(dāng)前在什么地方聚集,還能知道景區(qū)里每一個(gè)設(shè)備的安全狀態(tài)。比如每一艘游船上面有多少游客,油耗多少,航速多少,以及游船每個(gè)零部件的安全狀態(tài)如何。
一旦游船的安全狀態(tài)出現(xiàn)了問(wèn)題,我們可以第一時(shí)間查找它周邊最近的救生船,點(diǎn)擊救生船發(fā)動(dòng)救援。人的快思考、慢思考結(jié)合實(shí)時(shí)反饋,形成一個(gè)巨大的城市智能體,這就是真正的具身智能。
時(shí)空AI,為人工智能進(jìn)入物理世界提供關(guān)鍵的基礎(chǔ)理論和關(guān)鍵技術(shù)。前途很光明,但道路很漫長(zhǎng),工作很艱難。尤其是在中美博弈的時(shí)代,熱戰(zhàn)有可能會(huì)打,也有可能不打,但這場(chǎng)科技戰(zhàn)爭(zhēng)已經(jīng)開(kāi)始。
未來(lái),我們國(guó)家是否能真正實(shí)現(xiàn)中華民族偉大復(fù)興?科技戰(zhàn)爭(zhēng)的結(jié)果至關(guān)重要。而打贏這場(chǎng)仗,就是這十年,在座各位就是實(shí)現(xiàn)這場(chǎng)戰(zhàn)爭(zhēng)勝利的中堅(jiān)力量。
我是湖南人,特別喜歡毛主席的詩(shī)詞,也喜歡書法,最后借助主席的詩(shī)詞和我自己寫的書法跟大家共勉:“多少事,從來(lái)急;天地轉(zhuǎn),光陰迫。一萬(wàn)年太久,只爭(zhēng)朝夕!”
謝謝大家。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。