0

作者丨郭思
編輯丨陳彩嫻
圍繞大模型應用于自動駕駛的討論熱度持續升溫,卻呈現出愈發復雜而矛盾的現象。
一方面,資本力量的積極投入,行業巨頭紛紛搶占先機。例如,特斯拉近期推出了其“端到端”的全自動駕駛軟件FSD v12版本,并已在美國和加拿大地區逐步面向非員工用戶提供更新服務。與此同時,小米汽車于23年末宣告搭載自主研發的端到端感知決策大模型的小米智能駕駛系統面世,展現其在自動駕駛領域的創新突破。
學術界同樣對此表現出濃厚興趣,諸如BEV(鳥瞰視角)技術和NLP(自然語言處理)的應用推動著汽車智能化走向新的高峰。其中,上海人工智能實驗室在2023年CVPR會議上榮獲最佳論文獎的UniAD自動駕駛模型,正是全球首個實現感知決策一體化的自動駕駛大模型典范。
然而,另一方面,透過華麗的宣傳表象,實際專注于研發和應用自動駕駛大模型的企業數量并不多(據AI科技評論了解,當前在這一領域穩健推進的僅有英國Wayve等少數公司)。傳統汽車行業的模塊化管理模式長期以來形成的壁壘,令汽車行業在面對大模型試圖一攬子解決諸多問題的新模式時承受巨大壓力。
在此之前,國內某企業自動駕駛的負責人也曾透露,大模型技術的發展潮流促使整個部門內部組織結構發生顯著調整。一體化的自動駕駛決策大模型在某種程度上緩解了過去車企內部感知與決策部門間可能出現的沖突與不協調。然而,在邁向大規模部署和產業化發展的道路上,尚需面對輕量化部署難度高、高質量訓練數據匱乏、傳統車企轉型升級步伐緩慢等一系列挑戰。
大模型「上車」之路,看似近在咫尺,實則極具挑戰。
1、大腦和耳目的「分崩離析」
和人類一樣,智能駕駛汽車想要自己開上路,首先需要對周圍環境有一個認識。這件事情一般會交給自動駕駛的感知系統來完成。感知系統以多種傳感器的數據和高精度地圖的信息作為信息輸入,經過一系列計算及處理,對自動駕駛汽車周圍環境進行精確感知,也常常被比喻成智能汽車的”眼睛“和”耳朵“。
只不過有了眼睛和耳朵還不夠,上路還需要強大的大腦,這也就牽扯到了自動駕駛領域的決策系統。
長久以來,這兩個系統各自面臨技術和實踐上的挑戰,有時呈現出“分崩離析”的狀態,在某些復雜場景下,感知模塊可能無法準確識別或理解環境信息,而決策模塊也可能因對感知結果處理不當或算法局限性導致不正確的行駛決策。
這一現狀也體現在眾多自動駕駛公司的組織架構之中。
在國內自動駕駛行業某頭部公司內部,感知與決策團隊之間的緊張關系一度成為焦點。感知部門作為信息采集和初步處理的上游,負責通過各類傳感器收集環境數據并進行初步分析;而決策部門則扮演下游角色,基于感知數據做出駕駛策略決策。由于兩部門職能緊密相連且相互依賴,兩位團隊負責人在技術路線、資源分配及責任邊界等方面出現了較大分歧,甚至影響到了整體工作的協調推進。
最終,為了解決這一內耗問題,最后導致管理層不得不將兩個人的權責范圍進行調整。
另一個傳統車企研究院的技術架構師曾告訴AI 科技評論,自動駕駛部分這兩個部分碰撞十分之多。軟件模塊一旦涉及到接口的東西,出現問題之際,很難撇清是誰的責任,必須要有模塊化的測試用例,從而去進行區分。
汽車在行駛過程中,最終決策如果有出現錯誤,就可能意味著在決策之上的每一個環節都在出現問題。傳統的模塊方式,會有誤差的累積。如果感知模塊未能正確識別出道路障礙物或預測其他交通參與者的行為,則可能導致決策規劃模塊依據錯誤的信息做出不正確的行駛決策。此外,模塊之間的信息傳遞如果不清晰或者接口定義不嚴謹,也會導致信息丟失或誤傳,進一步增加決策錯誤的風險。
為了減少這類問題,汽車制造商和研發機構通常會采取諸如模塊化設計與測試、集成測試與回歸測試、功能安全認證以及強大的仿真平臺與實車測試等措施,以求最大程度上減少誤差累積和避免事故發生。
但盡管如此,由于自動駕駛技術的復雜性和多學科交叉特性,完全消除錯誤和不確定性仍然是一個艱巨的任務。模塊化設計與測試雖有助于隔離問題,確保每個模塊獨立運作的可靠性,但在實際集成過程中,模塊間的交互可能導致新的未知問題出現。
行業迫切需要一套更簡單高效解決的方案。
2、決策與感知握手言和是大勢所趨
2023年12月,小米汽車宣布推出搭載其自研端到端感知決策大模型的小米智能駕駛系統。緊接著,特斯拉也發布了其“端到端”自動駕駛軟件FSD v12版本,并開始在北美向非員工用戶推送。這似乎在表明對決策感知一體化的深入理解正成為共識,預示著行業發展的趨勢。
然而,在決策感知一體化概念進入公眾視野之前,早就有一群敏銳的學術先行者已經關注到這一動向。
2023年6月,上海人工智能實驗室的自動駕駛全棧可控端到端方案UniAD相關研究論文,在人工智能頂會CVPR(國際計算機視覺與模式識別會議)上榮獲最佳論文獎。這是有史以來自動駕駛相關技術首次獲此殊榮。UniAD向全世界展示了感知、規劃及決策一體化的“端到端”框架,為自動駕駛開拓了新方向。
上海人工智能實驗室青年科學家、OpenDriveLab團隊負責人李弘揚博士向AI科技評論表示,2023年的獲獎只是最終結果。在此之前,包括其團隊在內,學術界和產業界對自動駕駛的研究經歷了一段探索過程。
2021年,彼時剛加入上海人工智能實驗室不久的李弘揚,注意到了國外一個自動駕駛系統開源項目——Openpilot。
基于Openpilot系統,只需為車輛安裝一個當時售價999美元的后裝設備,內置單個攝像頭和電路板,可以處理L2級別的駕駛場景,實現自適應巡航控制(ACC)、自動車道保持(ALC)、前向碰撞警告(FCW)和車道偏離警告(LDW)等功能,目前已支持40余種車型。相比特斯拉完全自動駕駛系統,Openpilot成本低,效果卻十分驚艷。
OpenDriveLab團隊系統研究了Openpilot的各項技術細節,得出結論:Openpilot之所以能夠在單一設備上實現L2級自動駕駛,關鍵在于端到端的系統設計,而非傳統的模塊化框架。并于當年發表了一篇Openpilot研究論文,向學術界和產業界分享了觀點。

OpenDriveLab團隊Openpilot研究論文截圖
論文鏈接:https://arxiv.org/abs/2206.08176
「原來自動駕駛可以做得如此簡單。」
受此影響,團隊開始著手設計端到端的直接輸出項目,成為開啟UniAD研究的首個關鍵節點。
而UniAD研究的第二個關鍵節點則與BEV + Transformer相關。
BEV是如今自動駕駛領域的熱門詞匯。即通過車輛上傳感器接收的數據生成俯視圖(地圖)坐標系下感知結果的算法,包括檢測、分割等任務,是現行自動駕駛領域環境感知和表示的重要方式。
在BEV之前,大部分汽車廠商的做法是先去感知了2D圖像中的一些特征,比如說車在哪里,車輪的接定點在哪里,車的長寬比例是多少,拿到了一些圖像層面的信息之后。再根據相機的一些3D的標定幾何參數去獲得目標在三維空間下的準確的位置信息。
直到 2014 年,一篇標題為“Automatic Parking Based on a Bird’s Eye View Vision System”的論文發表,改變了這一局面。該論文的核心內容是:通過四顆魚眼攝像頭感知環境信息,并來構建一個 BEV 視覺系統,并由此實現自動泊車。BEV橫空出世,成為了大家爭相研究的方向。
感知下游的規劃控制成為了主流做法。而隨著深度學習技術的持續進步,在2021年底至2022年間,BEV與Transformer的深度融合逐漸成為了自動駕駛領域內的主流研究趨勢。
當時,學術界面臨如何繼續深化自動駕駛技術創新的挑戰,這要求從系統架構和軟件工程層面深入探討,并前瞻性地預見行業發展趨勢。
而從商業化角度看,2021年之際,自動駕駛技術似乎已觸及了一個瓶頸階段,L2級別的輔助駕駛功能基本滿足了大部分日常駕駛需求。吉利汽車與Mobileye的合作就是這一趨勢的體現,當時計劃在2021年實現L2+級自動駕駛系統的量產。其他汽車制造商如日本的幾家大型車企也在2022年前后在其主力車型中廣泛普及L2級別的自動駕駛技術。
只不過在應對復雜多變的交通場景,提供更加流暢和穩定的駕駛體驗上,各家都顯得捉襟見肘。
李弘揚銳地感知到了這一趨勢,堅信端到端大模型具有廣闊前景,是推動自動駕駛領域發展的有力途徑。
一開始他們在感知階段使用Transformer,而在預測和控制階段則采用了Resnet架構。嘗試將所有模塊整合進單一網絡結構,但在這時卻遭遇了訓練不穩定和性能下滑的問題。統一了全用 Transformer 這種網絡結構之后, QPV 等等這些幾個變量都能統一到一起。需要一整套的這種系統的級聯以及豐富模型訓練的這種經驗的背景,才把這一套跑通。
在UniAD中,研究人員首次將感知、預測和規劃等三大類主任務、六小類子任務(目標檢測、目標跟蹤、場景建圖、軌跡預測、柵格預測和路徑規劃)整合到統一的基于 Transformer的端到端網絡框架下,實現了全棧關鍵任務駕駛通用模型。

在 nuScenes 真實場景數據集下,UniAD的所有任務均達到領域最佳性能(State-of-the-art),尤其是預測和規劃效果遠超之前的最佳方案。其中,多目標跟蹤準確率超越SOTA 20%,車道線預測準確率提升30%,預測運動位移和規劃的誤差則分別降低了38%和28%。
該成果一旦大規模應用其實也會一定程度解決文章開頭提及的決策和感知打架的矛盾。
在學術前沿技術公布之后,緊隨其后的重點是探索其產業落地的可能性及其對社會價值的有效貢獻。對于UniAD這一自動駕駛領域的尖端技術來說,其向車載應用場景邁進的道路充滿了挑戰。
核心挑戰首先是如何實現模型的輕量化部署以及獲取高質量的訓練數據。另一方面,UniAD作為一項自動駕駛領域成果,能否上車其實也受制于車企的推進意愿。這三點正是UniAD大規模部署途中的三大攔路虎。
當UniAD宣布開源時,外界普遍關注其如何能在短時間內迅速達到高水平并成功實現在車輛上的應用。
實際上,這一問題的復雜性遠超出人們的初步認識。李弘揚坦言,盡管基于Transformer架構的UniAD在追求卓越性能的過程中取得了顯著成果,但也無可避免地受限于Transformer模型本身固有的問題,尤其是在模型部署環節,因其巨大的參數量帶來了嚴峻挑戰。
在此背景下,眾多汽車制造商及相關企業正集中力量,著力于在確保高性能的前提下,將模型高效部署于車載嵌入式系統中,特別是像NVIDIA Orin等高性能汽車芯片以及高通驍龍819等新型芯片平臺。
李弘揚團隊所研發的多項算法在關鍵性能指標FPS上有顯著提升,已實現每秒處理超過20幀圖像,這意味著系統擁有更強的實時處理能力和更快的響應速度。
回顧初期,UniAD初次發布時,其FPS僅為8至9幀。經過學界與產業界共同努力,如今已將該數值提升至超過20幀的高度。
在追求輕量化部署的過程中,車載芯片本身的特性也是一個重要考量因素。在自動駕駛領域,芯片并非單純追求極致算力,而是更看重穩定性以及功耗控制,要求在較低功耗范圍內(通常為十幾瓦左右)持續穩定工作。同時還要具備良好的散熱性能以適應嚴苛的車載環境。相較于普通消費級芯片,車規級芯片需在更惡劣條件下運行,如寬溫范圍(零下40攝氏度至零上155攝氏度),以及應對光線、振動、粉塵、電磁干擾等多種復雜情況。
這就要求芯片即使在極端顛簸環境中也能保持穩定工作,而這雖不屬于算法團隊的傳統研究范疇,卻也是必須解決的適配問題。若芯片算力不足,無法支持多種算法,或者生態系統不夠成熟,在設計網絡結構時,就必須精簡設計,甚至只能局限于芯片支持的現有庫中的算法。
針對決策與感知一體化的需求,其對計算能力的要求一開始就非常高。以高端配置為例,單顆芯片可能具備200TOPS的算力,兩顆芯片組合可達400TOPS,但這僅僅是理論上的峰值。在實際運行中,往往需要上千TOPS乃至更高的有效算力,因此需要進行針對性的優化適配。凡此種種,皆對汽車廠商與芯片廠商都提出了更高的要求。
除了輕量化部署是一大難題之外,橫在UniAD面前的,還有高質量數據這一老大難問題。
在通用視覺領域,現有的數據集往往缺乏足夠的三維數據或多角度信息。而對于自動駕駛應用場景來說,尤其是一些重要但出現頻率較低的特殊情境數據尤為關鍵。比如車輛在降雪環境下突然進入半開放式隧道,或是遇到具有潮汐車道屬性的左轉信號燈等情況。
這些罕見且關鍵的駕駛場景對數據的豐富度要求極高,但由于實際發生的概率較小,故難以積累充足的此類數據。許多自動駕駛領域的研究者在開展感知相關的研究時,急需三維數據及多視角重建的支持。因為在實際駕駛中駕駛員主要依賴前方視野,而要全面重建駕駛場景,則需要綜合考慮前后左右各方位的信息,這樣的高質量數據極為稀缺。
除此之外,端到端技術的推行還面臨著結構性阻力。特別是在已有明確分工的傳統車企中,它們往往設有獨立的二級或三級部門,分別專注于預測、路徑規劃、控制等專項任務。若推行端到端技術,則意味著可能需要整合多個部門的功能,組建一個新的綜合性部門,類似于設立未來技術研究院。國內傳統車企如一汽、廣汽等,它們的相關研究和技術開發通常就在類似的研究院體系下展開。
相比之下,國內一些新興造車勢力更愿意接納和運用端到端技術。由于這些企業是從零起步,沒有歷史負擔,從無到有建立起自己的技術和管理體系,所以在技術層面更具創新性和前瞻性。此外,新興企業的組織結構相對扁平,部門劃分尚未固化,較容易接受端到端這樣打破原有模塊化界限的技術革新,從而更有效地推動技術進步與應用落地。
盡管大模型技術在自動駕駛領域的應用前景廣闊,如UniAD等前沿項目在關鍵性能指標上取得了顯著的進步,但要實現大模型成功“上車”,仍有重重挑戰待解。
不過對于自動駕駛的期待,人類從來沒有停止。正如馬斯克近期在一場談話節目里所表示的那樣,「沒有自主權的汽車,跟馬沒有區別。」
當下,大模型技術的飛速發展正驅動汽車行業經歷一場前所未有的變革,有望全面提升汽車行業效率與智能水平。而隨著決策與感知一體化設計理念的演進,汽車的架構設計和工程流程也正經歷深刻的調整,產業鏈的各個環節都需要與時俱進地適應這一趨勢。
底層算法的不斷創新和完善,以及車載芯片的持續迭代升級,預示著汽車領域的顛覆性改革已然箭在弦上。
而未來的汽車究竟又會以哪種形態帶給人們更大的驚喜,這一切都讓人充滿期待。
本文作者長期關注大模型計算與框架、芯片領域動態,大模型上車還將會有哪些新故事?歡迎添加作者微信lionceau2046互通有無。
雷峰網(公眾號:雷峰網) 雷峰網 雷峰網
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。