近日,上海人工智能實(shí)驗(yàn)室(上海AI實(shí)驗(yàn)室)聯(lián)合香港科技大學(xué)、德國(guó)圖賓根大學(xué)、香港大學(xué)推出首個(gè)大規(guī)模自動(dòng)駕駛視頻生成模型GenAD,通過(guò)預(yù)測(cè)和模擬真實(shí)世界場(chǎng)景,為自動(dòng)駕駛技術(shù)的研究和應(yīng)用提供支撐。
自動(dòng)駕駛是汽車(chē)行業(yè)“下半場(chǎng)”競(jìng)爭(zhēng)的核心,隨著科技的飛速發(fā)展,智能駕駛技術(shù)已經(jīng)成為汽車(chē)行業(yè)的熱門(mén)話題。從最初的輔助駕駛系統(tǒng)到如今的自動(dòng)駕駛技術(shù),智能駕駛正在逐步改變我們的出行方式。但自動(dòng)駕駛是一個(gè)高度復(fù)雜的技術(shù)體系,不僅需要多個(gè)學(xué)科領(lǐng)域的知識(shí)和技能,包括傳感器硬件、機(jī)器學(xué)習(xí)、多模態(tài)融合等內(nèi)容,還需要適應(yīng)不同國(guó)家與地區(qū)的道路規(guī)則和交通文化,與車(chē)輛及行人進(jìn)行良好的交互,以實(shí)現(xiàn)高度的可靠性和安全性。
近年來(lái),上海AI實(shí)驗(yàn)室自動(dòng)駕駛團(tuán)隊(duì)不斷突破創(chuàng)新,挑戰(zhàn)各項(xiàng)自動(dòng)駕駛研究任務(wù),在多模態(tài)、時(shí)空融合、端到端、多任務(wù)等方面提出了新思路、新模式。
先是在通用智能大模型“書(shū)生”(INTERN)的支持下,研究人員首次將感知、預(yù)測(cè)和規(guī)劃等三大類(lèi)主任務(wù)、六小類(lèi)子任務(wù)(目標(biāo)檢測(cè)、目標(biāo)跟蹤、場(chǎng)景建圖、軌跡預(yù)測(cè)、柵格預(yù)測(cè)和路徑規(guī)劃)整合到統(tǒng)一的基于Transformer的端到端網(wǎng)絡(luò)框架下,實(shí)現(xiàn)了全棧關(guān)鍵任務(wù)駕駛通用模型。在nuScenes真實(shí)場(chǎng)景數(shù)據(jù)集下,UniAD的所有任務(wù)均達(dá)到領(lǐng)域最佳性能(State-of-the-art),尤其是預(yù)測(cè)和規(guī)劃效果遠(yuǎn)超之前的最佳方案。其中,多目標(biāo)跟蹤準(zhǔn)確率超越SOTA20%,車(chē)道線預(yù)測(cè)準(zhǔn)確率提升30%,預(yù)測(cè)運(yùn)動(dòng)位移和規(guī)劃的誤差則分別降低了38%和28%,打造出了業(yè)界首個(gè)感知決策一體化的自動(dòng)駕駛大模型UniAD。
隨后為應(yīng)對(duì)“語(yǔ)言+自動(dòng)駕駛”具體研究方向數(shù)據(jù)短缺的現(xiàn)狀,聯(lián)合團(tuán)隊(duì)構(gòu)建了首個(gè)含圖結(jié)構(gòu)的“語(yǔ)言+自動(dòng)駕駛”全棧開(kāi)源數(shù)據(jù)集DriveLM,以覆蓋自動(dòng)駕駛系統(tǒng)中的感知(Perception)、預(yù)測(cè)(Prediction)、規(guī)劃(Planning)等模塊。
經(jīng)由人工進(jìn)行復(fù)雜標(biāo)注和嚴(yán)格的質(zhì)量檢查,DriveLM包含了高質(zhì)量標(biāo)準(zhǔn)、信息量豐富、邏輯關(guān)聯(lián)充分的駕駛相關(guān)文本數(shù)據(jù),將助力自動(dòng)駕駛系統(tǒng)在復(fù)雜多變的交通環(huán)境中使用語(yǔ)言模態(tài)應(yīng)對(duì)復(fù)雜任務(wù)。
此次聯(lián)合團(tuán)隊(duì)將開(kāi)源模型(SDXL)置于駕駛視頻數(shù)據(jù)集OpenDV-2K進(jìn)行訓(xùn)練,使之獲得了第一人稱(chēng)駕駛視角圖像的生成能力。隨后,設(shè)計(jì)并引入了因果時(shí)序模塊,包括為駕駛視頻生成特別設(shè)計(jì)的解耦空間注意力、因果時(shí)序注意力和長(zhǎng)時(shí)序交互機(jī)制,并在OpenDV-2K上進(jìn)行視頻預(yù)測(cè)訓(xùn)練,以此構(gòu)建起GenAD模型。
自動(dòng)駕駛是一個(gè)高度復(fù)雜的技術(shù)體系,不僅需要多個(gè)學(xué)科領(lǐng)域的知識(shí)和技能,包括傳感器硬件、機(jī)器學(xué)習(xí)、多模態(tài)融合等內(nèi)容,還需要適應(yīng)不同國(guó)家與地區(qū)的道路規(guī)則和交通文化,與車(chē)輛及行人進(jìn)行良好的交互,以實(shí)現(xiàn)高度的可靠性和安全性。
上海AI實(shí)驗(yàn)室表示,聯(lián)合團(tuán)隊(duì)構(gòu)建了駕駛視頻數(shù)據(jù)集OpenDV-2K。經(jīng)過(guò)視覺(jué)語(yǔ)言模型(VLM)篩選、人工質(zhì)檢等工序,數(shù)據(jù)集收錄了2059小時(shí)第一人稱(chēng)視角駕駛視頻,覆蓋超過(guò)244個(gè)城市場(chǎng)景,規(guī)模為當(dāng)前之最。目前該數(shù)據(jù)集已用于GenAD預(yù)訓(xùn)練,同時(shí)向全社會(huì)開(kāi)源。
同時(shí)上海AI實(shí)驗(yàn)室也認(rèn)為,“世界模型”被視為通向通用人工智能(AGI)的重要路徑,其可在不實(shí)際執(zhí)行的情況下對(duì)未來(lái)結(jié)果進(jìn)行預(yù)測(cè),從而使模型作出更有效的決策。在自動(dòng)駕駛領(lǐng)域,特斯拉、Wayve等機(jī)構(gòu)紛紛嘗試通過(guò)世界模型的研究提升自動(dòng)駕駛的安全性。
得益于其強(qiáng)大的預(yù)測(cè)和可泛化能力,涵蓋大規(guī)模駕駛場(chǎng)景的GenAD為自動(dòng)駕駛大模型向世界模型邁進(jìn)提供了重要技術(shù)潛力。未來(lái),聯(lián)合團(tuán)隊(duì)將進(jìn)一步擴(kuò)展駕駛視頻數(shù)據(jù)集的規(guī)模,并持續(xù)研究以預(yù)測(cè)未來(lái)能力為核心的基礎(chǔ)模型,推動(dòng)理解復(fù)雜世界、三維空間和抽象概念性能提升。
近年來(lái)上海在自動(dòng)駕駛領(lǐng)域持續(xù)發(fā)力,并取得了較好的成績(jī)。2018年以來(lái),上海分階段、分批次開(kāi)放自動(dòng)駕駛測(cè)試道路,打造了嘉定、臨港、奉賢、金橋四個(gè)各具特色的示范區(qū)。2023年3月22日,《上海市浦東新區(qū)促進(jìn)無(wú)駕駛?cè)酥悄芫W(wǎng)聯(lián)汽車(chē)創(chuàng)新應(yīng)用規(guī)定實(shí)施細(xì)則》(以下簡(jiǎn)稱(chēng)《實(shí)施細(xì)則》)正式發(fā)布,該規(guī)定是我國(guó)首部針對(duì)無(wú)駕駛?cè)酥悄芫W(wǎng)聯(lián)汽車(chē)創(chuàng)新應(yīng)用的地方性法規(guī)。獲得牌照的企業(yè)可以在浦東新區(qū)行政區(qū)域內(nèi)劃定的路段、區(qū)域開(kāi)展車(chē)內(nèi)全無(wú)人的智能網(wǎng)聯(lián)汽車(chē)道路測(cè)試。
就在3月19日,浦東新區(qū)第二批自動(dòng)駕駛開(kāi)放測(cè)試道路新增了金橋經(jīng)濟(jì)技術(shù)開(kāi)發(fā)區(qū)全域及浦東申江路、滬南公路、兩港公路等“南北科創(chuàng)走廊通道”道路開(kāi)放為自動(dòng)駕駛測(cè)試道路。本次開(kāi)放測(cè)試道路共205公里,這是繼2022年開(kāi)放首批12條、29.3公里自動(dòng)駕駛測(cè)試道路后,浦東新區(qū)開(kāi)放的第二批自動(dòng)駕駛測(cè)試道路。至此,上海已累計(jì)開(kāi)放測(cè)試道路達(dá)1003條,總里程突破2000公里。
截至目前,已有32家企業(yè)、794輛車(chē)獲得道路測(cè)試、示范應(yīng)用、示范運(yùn)營(yíng)牌照,累計(jì)測(cè)試?yán)锍碳s2290萬(wàn)公里,測(cè)試總時(shí)長(zhǎng)約122萬(wàn)小時(shí),企業(yè)參與度、測(cè)試道路里程數(shù)和場(chǎng)景豐富度位居全國(guó)前列。