柚子快報(bào)激活碼778899分享:人工智能 聊一聊端到端自動(dòng)駕駛
柚子快報(bào)激活碼778899分享:人工智能 聊一聊端到端自動(dòng)駕駛
聊一聊端到端自動(dòng)駕駛
實(shí)現(xiàn)真正的自動(dòng)駕駛所面臨的最大問題是什么呢?比較常見的一個(gè)答案是:我們現(xiàn)在仍然無法窮盡所有的Corner?Case。但是隨著AI以及大模型技術(shù)的發(fā)展,將會(huì)給人帶來希望?!皩?duì)自動(dòng)駕駛系統(tǒng)來說,不論給系統(tǒng)疊加多少條代碼和規(guī)則,都無法窮盡長(zhǎng)尾場(chǎng)景,但AI能夠理解世界,意味我們有機(jī)會(huì)擺脫規(guī)則和代碼的堆砌,這是令人興奮的事情?!蹦持邱{專家解釋說。
附贈(zèng)自動(dòng)駕駛最全的學(xué)習(xí)資料和量產(chǎn)經(jīng)驗(yàn):鏈接
也就是說,按正常推理,端到端的方案可以把汽車“馴化”出更高階的AI智能。通過大量有價(jià)值數(shù)據(jù)的訓(xùn)練,逐步提升車端的“智力”水平,最終使得系統(tǒng)開車的技術(shù)水平猶如人類老司機(jī)。同樣,也有人認(rèn)為:“Open?AI的Chat-GPT和特斯拉的FSD?V12?端到端都是遵循大算力+海量數(shù)據(jù)的暴力美學(xué),能力來源和機(jī)制目前還難以精確地解答。”
從之前的BEV+Transformer,到后來的占用網(wǎng)絡(luò),又到現(xiàn)在的端到端。在智能駕駛算法領(lǐng)域,特斯拉也一直是處于一個(gè)引領(lǐng)的地位。但是,端到端大模型訓(xùn)練到什時(shí)候才會(huì)出現(xiàn)類似于大語言模型中的「涌現(xiàn)」現(xiàn)象,都還是未知數(shù)。但基礎(chǔ)的“本錢”在前期是必須要先投進(jìn)去。這既考驗(yàn)企業(yè)的技術(shù)預(yù)判能力又考驗(yàn)資金實(shí)力,不是誰都能押得起。那么,端到端這條技術(shù)路線在自動(dòng)駕駛領(lǐng)域真的靠譜么?國(guó)內(nèi)車企真的有必要繼續(xù)對(duì)標(biāo)跟進(jìn)么?
典型的端到端自動(dòng)駕駛系統(tǒng)示意圖(圖片來源于網(wǎng)絡(luò))
什么是端到端的自動(dòng)駕駛方案?
1)模塊化方案
**概念定義:**將整個(gè)駕駛?cè)蝿?wù)進(jìn)行切分,定義并劃分出多個(gè)子模塊,分別負(fù)責(zé)不同的任務(wù),這些子模塊通常包括?地圖/定位、預(yù)測(cè)、決策、規(guī)劃和控制。最后,通過系統(tǒng)集成來完成整個(gè)智能駕駛?cè)蝿?wù)。 **開發(fā)模式:**各個(gè)子模塊可以進(jìn)行獨(dú)立的開發(fā)和測(cè)試,等子模塊開發(fā)測(cè)試完成之后,再進(jìn)行系統(tǒng)集成,進(jìn)行系統(tǒng)級(jí)的測(cè)試和驗(yàn)證。
2)端到端方案
**概念定義:**整個(gè)智駕系統(tǒng)是一個(gè)大的模塊,不再進(jìn)行模塊和任務(wù)的劃分。端到端系統(tǒng)接收到傳感器的輸入數(shù)據(jù)后,直接輸出駕駛決策(動(dòng)作或軌跡)。 **開發(fā)模式:**基于數(shù)據(jù)驅(qū)動(dòng),整個(gè)系統(tǒng)可以作為一個(gè)大模型進(jìn)行梯度下降的訓(xùn)練,通過梯度反向傳播可以在模型訓(xùn)練期間對(duì)模型從輸入到輸出之間的全部環(huán)節(jié)進(jìn)行參數(shù)更新優(yōu)化。整個(gè)系統(tǒng)作為一個(gè)大模塊進(jìn)行開發(fā)和測(cè)試,從表面上看是簡(jiǎn)化了開發(fā)和測(cè)試流程。
結(jié)構(gòu)軟件形式開發(fā)范式模塊化方案該方案通常會(huì)按照感知、預(yù)測(cè)、規(guī)劃和控制等模塊進(jìn)行劃分。模塊與模塊之間設(shè)計(jì)了清晰的接口和界面。軟件采取人工編碼和神經(jīng)網(wǎng)絡(luò)相結(jié)合的形式,且人工編碼存在較高的占比,尤其是規(guī)控環(huán)節(jié),大部分車企還依賴規(guī)則驅(qū)動(dòng)、傳統(tǒng)算法和手工編碼。除采用神經(jīng)網(wǎng)絡(luò)的那部分,采用人工編碼的部分依然依賴于設(shè)計(jì)規(guī)則的優(yōu)劣和傳統(tǒng)算法的性能。端到端方案該方案將多個(gè)模塊整合成一個(gè)大模塊,通過一個(gè)大的神經(jīng)網(wǎng)絡(luò)模型來完成任務(wù)。理想狀態(tài)下,基本無需手工編碼,采用全棧神經(jīng)網(wǎng)絡(luò)即可實(shí)現(xiàn)。完全基于數(shù)據(jù)驅(qū)動(dòng),即在神經(jīng)網(wǎng)絡(luò)層數(shù)、結(jié)構(gòu)、權(quán)重、參數(shù)、激活函數(shù)、損失函數(shù)固定下來后,訓(xùn)練數(shù)據(jù)(質(zhì)量和規(guī)模)便成了決定端到端神經(jīng)網(wǎng)絡(luò)性能表現(xiàn)的決定性因素。
模塊化方案VS端到端方案(對(duì)比內(nèi)容:結(jié)構(gòu)、軟件形式和開發(fā)范式)
優(yōu)點(diǎn)缺點(diǎn)模塊化 方案* 方便每個(gè)模塊獨(dú)立優(yōu)化和調(diào)式迭代; * 簡(jiǎn)化研發(fā)團(tuán)隊(duì)分工; * 便于問題回溯。* 多個(gè)模塊間優(yōu)化目標(biāo)不一致,難以獲得全局最優(yōu)解; * 模塊間梯度斷開,僅傳遞指定特征(如檢測(cè)框),存在信息丟失和誤差累計(jì),影響最終模型性能; * 每個(gè)模塊都需要單獨(dú)的Encoder,存在大量冗余計(jì)算。端到端 方案* 方便進(jìn)行聯(lián)合優(yōu)化、尋求整體最優(yōu)解; * 消除嚴(yán)重的模塊累計(jì)誤差; * 共享Backbone,大幅降低計(jì)算開銷; * 基于數(shù)據(jù)驅(qū)動(dòng),對(duì)人工設(shè)計(jì)的依賴最小,并且能夠更好地解決長(zhǎng)尾問題。* 更接近黑盒,可解釋性差,很難進(jìn)行debug和迭代優(yōu)化; * 端到端訓(xùn)練容易出現(xiàn)過擬合現(xiàn)象; * 對(duì)數(shù)據(jù)要求非常高,需要海量的高質(zhì)量訓(xùn)練數(shù)據(jù)。
模塊化方案VS端到端方案(對(duì)比內(nèi)容:優(yōu)缺點(diǎn))
實(shí)現(xiàn)端到端所面臨的挑戰(zhàn)
特斯拉FSD?V12的量產(chǎn)被業(yè)內(nèi)看成是自動(dòng)駕駛發(fā)展史上的一個(gè)典型轉(zhuǎn)折點(diǎn),標(biāo)志著自動(dòng)駕駛技術(shù)真正地從規(guī)則驅(qū)動(dòng)階段過渡到數(shù)據(jù)驅(qū)動(dòng)階段。在數(shù)據(jù)驅(qū)動(dòng)階段,數(shù)據(jù)能力將會(huì)是車企決勝的關(guān)鍵因素,算法能力和算力資源則是參與競(jìng)爭(zhēng)的基礎(chǔ)。
1)海量高質(zhì)量數(shù)據(jù)的需求
訓(xùn)練端到端自動(dòng)駕駛系統(tǒng)到底需要多少數(shù)據(jù)?現(xiàn)在也沒有明確的答案,大家都還處于探索階段。但可以明確的是數(shù)據(jù)的門檻不僅是對(duì)絕對(duì)數(shù)量的要求,對(duì)于數(shù)據(jù)的分布和多樣性要求也極高。毫末智行數(shù)據(jù)智能科學(xué)家賀翔曾對(duì)外談到,“端到端模型是一個(gè)純粹的數(shù)據(jù)系統(tǒng),原則上模型參數(shù)夠大,數(shù)據(jù)分布性更好,模型性能就能不斷地提高——天花板很高,但燒錢,且費(fèi)時(shí)間?!?/p>
同樣,2023年6月,一位特斯拉軟件工程師在CVPR會(huì)議的演講中也談到了類似的觀點(diǎn),“對(duì)于訓(xùn)練自動(dòng)駕駛的基礎(chǔ)模型,不求無上限的數(shù)據(jù)量,但求一定量級(jí)基礎(chǔ)上的‘多樣性’?!?/p>
另外,在特斯拉2023年的一次財(cái)報(bào)會(huì)議上,對(duì)于端到端的自動(dòng)駕駛,馬斯克表示,“我們訓(xùn)練了100萬個(gè)視頻片段(clips),勉強(qiáng)可以工作;200萬個(gè)clips,稍好一些;300萬個(gè)clips,就會(huì)感到驚喜;訓(xùn)練到1000萬個(gè)clips,系統(tǒng)的表現(xiàn)就變得難以置信了”。特斯拉Autopilot回傳數(shù)據(jù)的1個(gè)Clips普遍被認(rèn)為是1min的片段,那么入門級(jí)別的100萬個(gè)視頻clips大概就是16000小時(shí)。
最近幾年,隨著越來越多配備智能駕駛功能車輛的規(guī)?;涞?,國(guó)內(nèi)很多車企也都開始基于量產(chǎn)車通過影子模式采集數(shù)據(jù)。但如何高效獲取有價(jià)值數(shù)據(jù),依然存在一些挑戰(zhàn)。
序號(hào)問題具體描述1采集策略問題即如何平衡數(shù)據(jù)有效性和數(shù)據(jù)的規(guī)模(成本)問題,如果采集策略比較寬松,采集回來的數(shù)據(jù)中無效數(shù)據(jù)占比就會(huì)過高,導(dǎo)致不必要的采集和存儲(chǔ)成本浪費(fèi)。如果采集策略過于嚴(yán)格,又很可能會(huì)過濾掉過多的有價(jià)值數(shù)據(jù)。2數(shù)據(jù)質(zhì)量問題如何定義數(shù)據(jù)質(zhì)量是個(gè)艱巨的產(chǎn)品問題,如何精準(zhǔn)地挑選出高質(zhì)量的數(shù)據(jù)又是一個(gè)復(fù)雜的技術(shù)問題。3數(shù)據(jù)分布問題如何從海量clips中提取有效的特征、如何統(tǒng)計(jì)數(shù)據(jù)的分布、應(yīng)該考慮哪些維度,都需要大量的工作。4數(shù)據(jù)泛化問題頭部車企往往車型平臺(tái)眾多,不同車型的傳感器配置差異較大,導(dǎo)致采集回來數(shù)據(jù)在格式和特征上存在較大不同,需要準(zhǔn)確的數(shù)據(jù)對(duì)齊。數(shù)據(jù)對(duì)齊的難點(diǎn)在于如何確保不同來源的數(shù)據(jù)在語義上保持一致,涉及到復(fù)雜的語義理解和轉(zhuǎn)換過程。5數(shù)據(jù)一致性問題端到端系統(tǒng)要求訓(xùn)練數(shù)據(jù)具有極高的一致性,每條數(shù)據(jù)要對(duì)所有子任務(wù)標(biāo)簽都進(jìn)行標(biāo)注,一旦一種任務(wù)標(biāo)注失敗,那這條數(shù)據(jù)就很難在端到端訓(xùn)練任務(wù)中使用,這對(duì)于自動(dòng)標(biāo)注Pipeline的成功率和性能提出了極高的要求。
獲取高質(zhì)量數(shù)據(jù)方面存在的挑戰(zhàn)(信息來源:基于公開資料整理)
2)超大算力的基礎(chǔ)設(shè)施支持
在2024年第一季度財(cái)報(bào)會(huì)議上,特斯拉對(duì)外透露,其已將訓(xùn)練AI集群擴(kuò)展到35000塊H100?GPU。按照計(jì)劃,到2024年底,特斯拉將會(huì)在超算集群上再投入15億美元(包括Dojo?-?5億美元、英偉達(dá)H100?-?5億+美元,以及未知金額的AMD芯片),目標(biāo)是將其超算中心的總算力提升到100EFLOPS。
如果用不太嚴(yán)謹(jǐn)?shù)姆椒ê?jiǎn)單做個(gè)估量:可以理解成,假設(shè)某家車企在數(shù)據(jù)和算法水平上跟特斯拉處于持平的狀態(tài)下,想要把端到端的模型訓(xùn)練到FSD?V12當(dāng)前的水平,GPU訓(xùn)練卡的需求也得至少要達(dá)到特斯拉目前的算力規(guī)模,即35000塊英偉達(dá)H100相當(dāng)?shù)乃健S邢⑷耸勘?,目前一塊H100?GPU卡官方售價(jià)為3.5萬美元,在黑市甚至被炒到?30-40萬元人民幣。按官方售價(jià)計(jì)算,35000塊?H100芯片需要花費(fèi)?12.25億美元。
受美國(guó)對(duì)我國(guó)芯片制裁的影響,國(guó)內(nèi)企業(yè)采購(gòu)英偉達(dá)H100?GPU已經(jīng)是難上加難。甚至現(xiàn)在連閹割版的A800/H800都已經(jīng)被禁止向中國(guó)市場(chǎng)銷售了。據(jù)了解,國(guó)內(nèi)能擁有1000張以上H100的企業(yè)都寥寥無幾。因此,如何在算力受限的情況下,去走通這種“大力出奇跡”的端到端的技術(shù)路線是值得深思的問題。
公司超算中心算力發(fā)布時(shí)間特斯拉Dojo超算中心1.8?EFLOPS2021年8月商湯AIDC4.91?EFLOPS2022年1月華為華為車BU算力中心2.8?EFLOPS2023年11月蔚來“蔚來云”智算中心1.4?EFLOPS2023年9月吉利星睿智算中心0.81?EFLOPS2023年1月理想理想智算中心0.75?EFLOPS2023年6月毫末智行雪湖綠洲MANA?OASIS0.67?EFLOPS2023年1月小鵬“扶搖”超算中心0.6?EFLOPS2022年8月
主流車企及自動(dòng)駕駛廠商超算中心布局情況(信息來源:基于公開信息整理)
3)端到端大模型的訓(xùn)練問題
設(shè)計(jì)并訓(xùn)練出一個(gè)“可用”的端到端神經(jīng)網(wǎng)絡(luò)模型也是一件十分有挑戰(zhàn)的事情?!霸O(shè)計(jì)一個(gè)可工作的推理神經(jīng)網(wǎng)絡(luò)需要大量的專業(yè)知識(shí),而訓(xùn)練它就更復(fù)雜。例如,需要選擇合適的輸入/輸出信號(hào)、歸一化、偏差、神經(jīng)網(wǎng)絡(luò)層數(shù)、每層神經(jīng)元數(shù)量、非線性輸出函數(shù)(例如?RELU)……并且整個(gè)系統(tǒng)中的許多神經(jīng)子網(wǎng)絡(luò)都可能涉及這些問題,工作量巨大?!币晃蝗斯ぶ悄軐<艺劦健?/p>
據(jù)相關(guān)專家的調(diào)研分析,即便是特斯拉的FSD?V12,它的端到端的神經(jīng)網(wǎng)絡(luò)模型也是建立在前序版本基礎(chǔ)之上,是在原有技術(shù)基礎(chǔ)上一步步去掉部分的規(guī)則代碼,并逐漸實(shí)現(xiàn)端到端可導(dǎo)。特斯拉通過之前搭載FSD?V9、FSD?V10、FSD?V11的大量車型,收集大量真實(shí)數(shù)據(jù),從而訓(xùn)練出了處理各分任務(wù)的模型,在研發(fā)迭代過程再不斷將這些中小任務(wù)模型進(jìn)行聚合和重組,并最終形成FSD?V12的模型方案,這是一個(gè)循序漸近的過程,萬丈高樓平地起,而不是空中樓閣。
4)組織架構(gòu)的適配性問題
實(shí)現(xiàn)端到端,算力、數(shù)據(jù)和算法是關(guān)鍵的三要素,缺一不可。除此之外,智能駕駛團(tuán)隊(duì)的組織架構(gòu)也需要隨著技術(shù)路線的改變而進(jìn)行適配性的調(diào)整。
如果車企采用端到端的方案,那么,對(duì)于現(xiàn)在自動(dòng)駕駛研發(fā)團(tuán)隊(duì)的組織架構(gòu)而言,不同模塊項(xiàng)目組在開發(fā)協(xié)作上也存在比較大的挑戰(zhàn)。目前車企的自動(dòng)駕駛研發(fā)團(tuán)隊(duì)架構(gòu),基本上還是按任務(wù)模塊劃分成不同的項(xiàng)目組或工作組。然而,端到端的技術(shù)方案直接消除了不同模塊間的接口壁壘,開發(fā)模式也將會(huì)產(chǎn)生比較大的變化。從開發(fā)效率上來說,組織架構(gòu)和開發(fā)范式相匹配才是最優(yōu)選擇。因此,車企需要重新規(guī)劃和調(diào)整整個(gè)研發(fā)團(tuán)隊(duì)的人力資源以適配新的技術(shù)開發(fā)范式。
另外,組織架構(gòu)的變動(dòng),必然也會(huì)涉及到人才需求的變化。某業(yè)內(nèi)人士談到“即便到了端到端的階段,雖然對(duì)組織架構(gòu)有些影響,但是獨(dú)立的預(yù)測(cè)和規(guī)控小組應(yīng)該還是有必要存在的,需要用來為安全做兜底。但是這方面的人才需求變小也是必然趨勢(shì)。與之相對(duì)應(yīng),懂車并且懂深度學(xué)習(xí)方面的人才將會(huì)變成強(qiáng)需求?!?/p>
針對(duì)人才需求的話題,另外一位智駕從業(yè)者的預(yù)判是:“在未來,雖然端到端的技術(shù)方案,將會(huì)減少大量的人工編碼工作。但仍需人類工程師手寫代碼來完成篩選數(shù)據(jù)、處理數(shù)據(jù)、組織模型訓(xùn)練等工作。這些代碼少而精,需要基礎(chǔ)扎實(shí)、經(jīng)驗(yàn)豐富的工程師團(tuán)隊(duì)反復(fù)試錯(cuò)、驗(yàn)證。然而,這樣的人才在國(guó)內(nèi)卻是少之又少?!?/p>
“端到端”自動(dòng)駕駛離我們還遠(yuǎn)么?
關(guān)于端到端的方案,大家的看法不一,但整體上感覺還是比較理性的,認(rèn)為實(shí)現(xiàn)真正的端到端可能還需較長(zhǎng)一段時(shí)間的路要走。下面分享幾個(gè)我關(guān)注到的比較有代表性的觀點(diǎn):
A觀點(diǎn):“端到端大模型過于神化了,一個(gè)統(tǒng)計(jì)模型而已,距離人的思維認(rèn)知能力還差得遠(yuǎn),穩(wěn)定性完全不能保障。把人命壓在這個(gè)上面就有些太不負(fù)責(zé)任了?!?/p>
B觀點(diǎn):“端到端最大的問題在于:它還是基于過往的數(shù)據(jù)訓(xùn)練出來的模型,若有劣質(zhì)數(shù)據(jù)進(jìn)入云端,必然導(dǎo)致訓(xùn)練出來的模型有各種瑕疵。如果通過手工排除劣質(zhì)數(shù)據(jù),恐怕是另外一個(gè)不能承受之痛。端到端模型的智能化程度還是嚴(yán)重依賴訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)量。馬斯克經(jīng)常談第一性原理,拿攝像頭跟人的眼睛做對(duì)比。但人眼的分辨率要比當(dāng)前車載攝像頭高很多,并且人腦的分析推理能力以及腦補(bǔ)能力也是目前AI所無法比擬的。總之,理想很豐滿,現(xiàn)實(shí)很骨感,思路很好,但道阻且長(zhǎng)?!?/p>
C觀點(diǎn):“端到端不僅是燒錢巨坑,還是個(gè)長(zhǎng)期工程,很多企業(yè)在短期內(nèi)很難看到結(jié)果。這也意味著,端到端是少數(shù)企業(yè)的游戲,只有資金儲(chǔ)備充足、且愿意長(zhǎng)期投資的頭部公司,才有能力支持端到端所需的龐大數(shù)據(jù)與算力?!?/p>
其實(shí),到底需要多大的算力基礎(chǔ)設(shè)施資源,需要多大規(guī)模以及什么樣的數(shù)據(jù)量,才能把端到端模型訓(xùn)練到可用,甚至達(dá)到“涌現(xiàn)”的狀態(tài),以及端到端大模型訓(xùn)練好之后如何在車上部署,都是現(xiàn)在亟需思考的問題。如果這些關(guān)鍵問題都還沒有考慮清楚,就直接開始鼓吹要實(shí)現(xiàn)端到端量產(chǎn)上車,最后很可能會(huì)落得個(gè)“邯鄲學(xué)步”的結(jié)果。
柚子快報(bào)激活碼778899分享:人工智能 聊一聊端到端自動(dòng)駕駛
精彩內(nèi)容
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場(chǎng)。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。