0

近年來智能駕駛成為汽車行業的焦點,隨著軟硬件性能的提高,廠商們也開始了向更高級別的自動駕駛邁進的研發之路。
從簡單的控制汽車橫縱向移動到點對點自動駕駛功能的完美實現是眾多汽車廠家及供應商鉆研的方向。
在一定程度普及ADAS功能后,依靠高精地圖導實現自動駕駛的領航輔助駕駛(NOA)開始慢慢的出現在大眾視野里。
在此賽道上不乏一直走在智能領域前端的科技公司,如何更好的滿足主機廠的需求,實現產品的快速落地可能是科技公司首先需要思考的。他們又是如何應對此挑戰的呢?
雷峰網新智駕邀請了商湯科技絕影量產智能駕駛總監蔣沁宏來進行業內分享。以下為蔣沁宏的演講內容,雷峰網(公眾號:雷峰網)新智駕進行了不改變原意的整理:
大家晚上好,我是來自商湯絕影的研發總監蔣沁宏,負責量產行車和感知算法的研發工作。
今天的分享主題:智能駕駛算法平臺化加速NOA的量產落地。主要介紹下當前絕影的產品方案,以及在產品和項目迭代過程中的一些研發思考和部分算法。
內容主要會分三部分:
1.SenseAuto Pilot產品方案
2.絕影的技術思考
3.部分算法概覽
SenseAuto Pilot產品方案
商湯絕影目前有低中高三套產品方案,對應不同的傳感器配置以及域控平臺。低配方案是1R6V加12個超聲波雷達,支持到L2智能輔助駕駛以及記憶泊車,可部署在8 TOPS - 24 TOPS的芯片平臺。中配的方案,是目前市面上比較常見的5R11V外加12個超聲波雷達方案,支持到高速領航駕駛以及記憶泊車,可部署在32 TOPS - 100 TOPS+的芯片平臺。高階方案相比于中配方案額外增加3顆激光雷達,對應的平臺算力也比較強,在駕駛功能上可以拓展到城市領航輔助駕駛。
以上方案均已兼容國內外的主流芯片平臺。
·低配方案

低配方案主打性價比,可以支持 L2 智能輔助駕駛,駕駛員指令變道和記憶泊車。傳感器方案上,在前向采用120度 8M 相機,后向采用60度 2M 相機,4顆魚眼相機模組,1顆前向毫米波雷達,以及標準的12顆超聲波雷達。最大程度復用傳感器感知:在行車時,側向魚眼會同時提供目標、障礙物以及車道線的感知;但因為魚眼相機的畸變大,感知距離有限,所以不推薦基于該方案實現高速的主動變道功能;在泊車場景下,這套方案也會完全復用各個傳感器。
·中配方案

中配方案是當前比較常見的5R11V方案,前向相機切換為30度窄角和120度寬角。30度相機的加入可以實現更遠距離的前向感知,并支持如TSR等的小目標感知,車輛、障礙物的感知距離也會增加。其次為了增強側向感知能力,方案配置了4顆側向的攝像頭以及4顆角雷達,這樣可以使側向的感知距離以及對障礙物的位置、速度估計精度有大幅的提升。
此配置可以支持高速領航駕駛(高速NOA)。此外,和低配方案一致,也是復用傳感器的行泊一體方案。
·高配方案

高配方案中,前向攝像頭均為8M相機模組,前向感知距離進一步提升,同時引入了三顆激光雷達,一顆正前向,兩顆補盲,增強障礙物位置精度的同時,提供更多通用未知障礙物感知功能。在城市場景當中能夠支持窄路通行等功能。在泊車場景下,激光雷達還能夠使建圖及定位的精度會獲得較大提升。
絕影的技術思考

商湯絕影的研發模式為基于數據驅動的平臺型研發。數據驅動可以使不同平臺的數據共享,從而幫助算法性能的提升,通過平臺型研發賦能不同的產品和項目。在此研發范式下,有三個比較關鍵的因素:
首先是駕駛場景數據,即如何拿到入口,能夠有更豐富的業務場景數據來源。
其次是數據獲取效率,即如何較快地去獲取這些數據。兩個維度:一方面是如何基于新計算平臺快速地使能車輛跑起來,實現閉環迭代;另一方面是如何快速實現數據回流。
最后,最關鍵的是數據利用效率,也即場景數據到手后,進一步探索如何高效地利用數據。
從技術思考來看,我們希望通過海量的數據和平臺化的技術研發助力算法提升,進而在不同的項目、平臺和產品上獲得產品性能的提升。
·駕駛場景數據
到目前為止,商湯絕影與30多家車企建立了共榮共生的合作關系,2022年我們與一汽、廣汽簽署了戰略合作協議,和多家車企廣泛開展量產合作,幫助我們有效獲取駕駛場景數據迭代算法。
·數據獲取效率

面對不同的硬件平臺和底軟,如何快速實現閉環迭代以及經驗共享是關鍵。我們開發了一套全平臺一體化工具鏈。
首先對于域控系統的中間件開發,商湯絕影擁有自研中間件的開發能力,也支持基于集成供應商提供的第三方中間件進行開發。針對不同中間件,做了統一適配層(RSCL)封裝,屏蔽不同的中間件和底軟的差異,為上層SenseAuto Pilot應用軟件提供統一化接口,同時包括錄制回放、性能分析、數據的切分、可視化等工具鏈都基于統一適配層實現。這樣可以保證在不同的項目中,應用層代碼、開發的工具鏈以及數據完全共享。這里提到的數據不僅僅是點云、圖像層級的原始數據,也包括中間結果數據。
針對模型部署推理,不同的芯片平臺有不同的深度學習庫和不同的推理方式。商湯有專業的工具鏈團隊,負責開發統一平臺部署系統,屏蔽不同的推理后端和模型格式。舉例來說,A芯片平臺當前不支持Transformer算法相關算子,但支持類似矩陣乘法、并行加速等基本開放接口,我們的PPL團隊會基于這些接口,開發對應的高性能算子,并和平臺原生算子一起整合到部署系統中。部署系統會自動地進行網絡圖的切分、格式轉換、無縫支持該平臺不支持的算子。對于研究員來說,不管后端究竟是什么模式,也能夠使用相對標準化模型推理的接口。
有了這些,我們在面對一個新的平臺和底層軟件系統,完成從0到1完整的搭建,只需要一到兩個月的時間。這也是絕影可以支持眾多芯片平臺的底氣。
·數據利用效率

在擁有完整的研發體系后,如何較快、較好的利用這些數據,商湯做了兩件核心的工作:建立人工智能數據中心,和建立遍布全球的人工智能超算集群,目前總計擁有大概4.91exa FLOPs算力?;贏IDC基礎裝置,我們在2021年底發布了名為書生(Intern)的超大模型,是視覺模型領域業界最大的模型。同時,借助書生超大模型和超算中心,我們搭建了自研的數據閉環自動化體系。

獲取數據后,如何高效利用數據,涉及數據的自動化生產。
針對駕駛業務場景,我們開發了視覺的超大模型(通才模型)以及基于駕駛業務場景數據的訓練得到的模型(專才模型)。基于這兩個模型,對從車端導出的無標簽原始數據進行推理,并基于規則對推理結果進行質量檢查。低質量、判斷不達標的數據送給質檢員,質檢員會做進一步檢查以及精修(Refine),最后生成高質量的數據標簽。
通過這套體系,不管是標注的速度、成本,還是模型迭代的速度都有了較大的提升。就檢測任務來說,目前基本不需要人工標注2D數據,標注速度對比之前有約 600 倍的提升,成本也有著百倍量級的下降,迭代速度約為之前的18倍。

針對自動駕駛海量的數據,需要建立對應的標簽體系。絕影的標簽體系分為四個細分的領域:交通參與者、交通設施、動物以及路上的其他障礙物。標簽層級目前有6層級,總的標簽數量3000多個。同時我們建立了一套自研的數據篩選引擎,針對不同條件進行數據篩選及過濾,可以使數據的獲取成本降低約94%。
算法的概覽
·長尾模型研發
語義層級的細化可以帶來駕駛風格的提升,從而讓用戶體驗更加智能的系統。因此感知語義層級的細化能夠帶來智能駕駛功能的升級。這些語義標簽都符合長尾分布。
長尾問題的解決關鍵,一方面是長尾模型的研發,另一方面是數據體系建立。
數據上,會基于超大模型做數據挖掘。首先是基于Clip的冷啟動,在現有的數據庫里做對應的圖像搜索。有了這部分數據后,進行特定檢測模型的孵化,保障它能有較高的recall。然后會把該模型部署在車端,自動地在開集的世界里打標收集數據,并回流到云端,進入大模型的打標過程,生產對應的標簽。
針對模型的研發,我們通常采取的方式是:首先針對某一款芯片平臺進行模型結構搜索,搜索得到對應的模型庫也就是對應的候選檢測模型List。通過自動的數據標簽,以及知識蒸餾等進行算法的訓練,得到最終的end model。
我們完成一個長尾模型的研發,通常不會超過1周時間。

·BEV3D感知
商湯絕影在目前所有的項目包括量產平臺上所涉及的平臺,都實現了BEV 3D感知的落地。

BEV 3D感知的核心優勢在于提供了一個適合自動駕駛的特征表達形式,對遮擋目標的檢測,穩定性效果更好,對車道線遠距離感知以及大弧度彎道等檢測更加完善等等。近來大家討論火熱的輕地圖方案,也是以BEV表達為基礎的。

BEV3D感知關鍵不在于模型算法,而在于數據生產。為此我們構建了一套全自動化的真值系統?;贑amera與LiDAR大模型,以及LiDAR SLAM和離線MOT,我們搭建了一套支持動靜態目標,道路結構3D高保真還原的真值系統。針對實車傳感器容易出現的問題,我們建立了時空對齊的自動化檢驗,能夠實現原始數據的半自動化清洗。同時借助于我們AIDC大模型上的一些體系技術,實現了多機多卡的處理,能夠支持 1000 多張卡的自動化并行處理流程。另外我們還構建了自動化生產平臺,操作節點之間構成一個DAG,自動化執行真值系統算法生產,平臺每天定時查詢車輛新增數據,自動觸發真值的生成并更新數據庫。
當算法部署在多個量產車型時,相機安裝位置、型號不盡相同,會引入Depth Shift和FOV GAP等跨域泛化問題。針對此問題,商湯絕影基于數據增強,知識遷移等方案,將無標簽數據逼近有標簽結果,可以有效解決不同產品項目的數據共享,以及新項目的算法冷啟動問題。

這兩年商湯絕影在端到端的自動駕駛、BEV的算法方案預訓練、知識遷移與泛化性等相關學術領域,發表了多篇頂會和期刊論文。商湯在2022年環視感知算法BEVFormer++獲得了Waymo挑戰賽冠軍,2023年與上海人工智能實驗室合作端到端自動駕駛UniAD,拿到CVPR 2023 Award Candidate,并會競爭今年CVPR Best Paper。如果有感興趣的小伙伴,不管是實習還是全職,也歡迎加入我們。
以上就是我今天的分享內容,謝謝大家。
Q&A環節
1.激光雷達在城市NOA中是否必須?激光雷達解決哪些場景?
從目前迭代來看,激光雷達在城市場景中還是非常必要的。一個是城市場景里交通參與者有非常強的不確定性,比如說行人、騎電動車的亂穿馬路等,需要激光雷達去提升這部分感知物體的精度。另外在城市場景下會更多奇形怪狀的障礙物,激光雷達能夠更好地識別這種非結構化或者非標準化的障礙物,更好地應對城市場景。
2.數據驅動這一塊兒從哪方面入手?幫助算法或者開發做功能開發的替代HIL?
應該是兩個事, HIL更多指的是對整個系統進行的離線硬件在環測試。數據驅動則是指我們在算法研發的時候,從頂層設計來講,就希望算法是通過數據驅動來實現的,而不是通過規則實現的。
舉一個簡單的例子,比如BEV 3D感知。
目標感知傳統的做法是每個相機單獨進行障礙物的感知,然后再把多個相機的結果進行融合。這就是一套基于規則或者說基于傳統的貝葉斯濾波來實現的。
我們希望盡可能的把這些過程放到模型或者數據里面,對應的做法就是BEV 3D感知,直接在模型里就能夠輸出多相機的感知結果,這是我們說的數據驅動的思路。
3.請問部署的BEV方案用的是BEV Former 嗎?
看平臺,和部署效率相關。BEVFormer 或者目前業界比較常見的基于LSS的方案,它對應的BEV Feature是非常稠密的,一些低算力平臺不太能夠吃得消。因此我們在一些低算力平臺,也會用一些稀疏的方案,不會去構建BEV完整的Feature,而是針對query去拿相對稀疏的信息。但其它任務,比如我們想要進行Occupancy預測,或者進行全場景的感知任務,則需要稠密 BEV Feature,這個目前在用的是BEVFormer。但目前在量產上,BEV特征方案其實不是最關鍵的,更關鍵的是比如圖像輸入大小,后面的任務是基于Transformer,還是基于一個傳統的Detection Head等,怎么建模該任務等,這些事情相對而言會更關鍵一點。
4.毫米波雷達的路沿使用效果如何?為何沒有用作路沿監測?
其實是有用的,我們在不帶激光雷達方案下的目標融合模塊,會用毫米波做一些高速路沿相關的任務,主要是輔助我們做一些FP濾除工作。
5.BEV只能通過Camera的光流信息捕捉實現嗎?LiDAR和RADAR是否在其中有價值?
BEV不只是對相機。之前大家做算法任務時,思考都是以傳感器視角的Front View 形式。而BEV提供了一個更適合自動駕駛的全新研究范式,它的來源最早應該是在激光雷達領域,空間特征的表達不再是以Front View形式,而是以自車為中心,通過鳥瞰圖的形式把它拍平來做特征建模。這種特征建模對于激光雷達還是毫米波雷達都是有天然優勢的,它們可以非常方便的加入進來。
6.商湯的BEV算法相比同行有哪些領先之處?
其實前面的分享有陸續提到。首先在學術研究上,我們肯定是站在最前沿的,不管是國際挑戰賽,還是學術論文。同時我們會更多地做量產上的思考,強大的部署團隊使得我們在低算力平臺也能夠實現BEV算法;自動化的真值系統;對算法冷啟動泛化性地考慮等。
7.Clip 冷啟動是通過預先搜索收集包含潛在標簽的數據集嗎?
是的。
比如說清障車,首先會在歷史的數據集搜索,生產一個小模型或者車端的模型。這時更多的是保證它的Recall,如果歷史數據不夠多,我們會把Recall比較高的小模型部署到車端,把車端數據拿回來,再通過大模型打標以及生產形成閉環。
8.貴司的 AIDC 實際使用效率如何?有新項目導入,算力資源充沛嗎?
商湯SenseCore AI大裝置持續擴建,完成2.7萬塊GPU的部署并實現了5.0 exaFLOPS的算力輸出能力,以AI-as-a Service (AIaaS)的模式面向行業伙伴提供服務。目前可最多支持20個千億參數量大模型(以千卡并行)同時訓練,最高可支持萬億參數超大模型的訓練。
除自用外,SenseCore目前服務8家客戶進行大模型訓練,總共提供7,000多張GPU卡;對外提供的AIaaS具體包括了計算基礎設施服務(IaaS)、深度學習平臺服務(PaaS)、模型部署及推理服務(MaaS)三大部分的能力。
9.TDA4上部署BEV后還能再部署其他模型的空間嗎?還是說一個BEV可以實現多任務模型?
我們現在在TDA4上是可以同時部署其他模型的?;贐EV多任務實現目標 + 車道線的感知;然后還有一套2D檢測的融合模型,比如交通燈、標志牌、光斑檢測等內容,是一個額外的模型。
10.友商都在強調自己BEV落地速度的領先,您認為BEV方案的質量該如何評價?
評價質量,我認為有兩個方面,一是每個任務都有自己的評價指標,例如感知目標結果跟激光雷達、高精地圖相比的絕對誤差,穩定性等。另外一個評價偏結合后的應用,舉個例子對車道線還有目標的預測結果,在BEV空間下的對齊效果,這就更多的是結合實車或者結合規控的角度來看這個問題。
11.傳關于行人和車輛的軌跡預測用什么傳感器算法?對于人流量大的十字路口的場景好用嗎?
我們現在在車端部署的是基于結構化數據的預測,當前展示的端到端的還沒有部署到我們的車上?;诮Y構化數據,不太關心數據是來自于什么傳感器,而是重點基于目標的3D位置、速度信息進行預測。
路口的預測確實比較難,特別是對于人的預測一直是個難點,這也是我們目前在解決的一個問題。它的難點在于本身真值就有多樣性,比如怎么預測人下一秒究竟是要往前走還是突然掉頭,是一個非常難的問題。
我們認為,預測不單純是感知的問題,還是規控的問題,需要把預測跟規劃放到一起做考量,類似于博弈或者相互之間Social的建模。
12. 車道線是 BEV 分割給的嗎?
車道線現在是BEV給的,但商湯不是用的分割方案,而是基于矢量化方案。
我們今天的直播就先到這,非常感謝大家,感謝主辦方。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。