欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁綜合 正文
目錄

柚子快報邀請碼778899分享:自動駕駛合集53

柚子快報邀請碼778899分享:自動駕駛合集53

http://yzkb.51969.com/

?#?PanoSSC

對于一個安全的自動駕駛系統(tǒng)而言,準(zhǔn)確的理解當(dāng)前的3D場景是至關(guān)重要的。自動駕駛車輛通過利用傳感器采集到的數(shù)據(jù)信息以及感知算法對當(dāng)前場景包含的各類元素進(jìn)行準(zhǔn)確的感知和理解對于下游的規(guī)控任務(wù)起到了非常重要的作用。

最近,由于Occupancy Network感知算法可以更加有效的感知任意大小的物體、部分被遮擋的物體以及當(dāng)前數(shù)據(jù)集中沒有預(yù)先定義好的目標(biāo)類別,而受到了來自工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注,目前已經(jīng)有很多出色的Occupancy Network感知算法。

目前而言,在語義分割任務(wù)中,基于視覺的相關(guān)感知算法已經(jīng)取得了和激光雷達(dá)感知算法相接近的表現(xiàn)性能,但是相關(guān)的實例提取任務(wù)相對研究的較少。考慮到理解周圍環(huán)境中的具體實例目標(biāo)可以消除目標(biāo)不一致的語義預(yù)測結(jié)果以及相鄰目標(biāo)的混合預(yù)測問題,而這些預(yù)測上的混淆問題很有可能會損害下游規(guī)劃模塊的安全性?;谏鲜隹紤],我們提出了一種新穎的單目全景3D場景重建方法,稱之為PanoSSC。通過相關(guān)的實驗結(jié)果可以證明,相比于其它的單目算法模型,我們提出的PanoSSC算法模型在SemanticKITTI數(shù)據(jù)集上實現(xiàn)了更具競爭力的表現(xiàn)性能。同時,PanoSSC還是首個僅依靠視覺信息來解決戶外全景3D場景重建的算法模型。

PanoSSC算法模型實現(xiàn)了室外場景的單目場景的重建任務(wù)

論文鏈接:https://arxiv.org/pdf/2406.07037

網(wǎng)絡(luò)模型的整體架構(gòu)&細(xì)節(jié)梳理

語義占用預(yù)測是將當(dāng)前的3D立體空間劃分成網(wǎng)格體素的形式,并且通過算法模型來預(yù)測每個體素的具體語義標(biāo)簽類別。全景3D場景重建任務(wù)將會進(jìn)一步預(yù)測屬于前景類別的每個體素的實例序號。在詳細(xì)介紹本文提出的PanoSSC全景3D場景重建算法之前,下圖展示了我們提出的PanoSSC算法模型的整體網(wǎng)絡(luò)結(jié)構(gòu)。

提出的PanoSSC單目全景3D場景重建模型的整體網(wǎng)絡(luò)結(jié)構(gòu)圖

通過上述的PanoSSC算法模型整體網(wǎng)絡(luò)結(jié)構(gòu)圖可以看出,我們提出的算法模型包括圖像編碼器模塊,2D向3D空間轉(zhuǎn)換的視角轉(zhuǎn)換模塊,語義柵格預(yù)測頭模塊以及基于Transformer的掩碼解碼器頭模塊。

最后,受到Panoptic SegFormer算法模型的啟發(fā),我們采用了一個基于掩碼的策略將最終掩碼解碼器層的預(yù)測掩碼結(jié)果與語義占用頭的背景結(jié)果合并,以獲得3D體素化場景的占用、語義和實例物體序號信息。

3D Mask Decoder(3D掩碼解碼器)

為了提升算法模型前景實例的重建和分割質(zhì)量,我們將體素特征輸入到實例補全頭模塊中實現(xiàn)實例感知語義占用的預(yù)測。我們提出了一個基于Transformer的3D掩碼解碼器作為實例補全頭模塊,從給定的查詢中預(yù)測類別屬性以及3D掩碼信息,其網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。

3D Mask Decoder模塊的具體實現(xiàn)流程

Mask-wise merging inference(掩碼合并推理)

為了進(jìn)一步細(xì)化前景實例的重建質(zhì)量。我們?yōu)?D掩碼設(shè)計了一種掩碼合并策略。具體而言,在算法模型推理的過程中只需要語義占用頭的背景預(yù)測結(jié)果,同時將屬于前景類別的體素設(shè)置為空。然后,我們將來自實例補全頭模塊輸出的3D掩碼逐個合并到語義占用的預(yù)測結(jié)果當(dāng)中。由于每個掩碼只代表一個前景實例,因此可以分配一個唯一的索引號。

下面的偽代碼具體說明了我們掩碼合并推理的整體邏輯情況

Mask-wise Merging算法的偽代碼整體流程

訓(xùn)練策略

實驗結(jié)果&評價指標(biāo)

定量分析部分

為了驗證我們提出的算法模型PanoSSC對于語義場景補全任務(wù)的有效性,我們在SemanticKITTI數(shù)據(jù)集上與其它的算法模型進(jìn)行了對比實驗,相關(guān)的實驗結(jié)果如下所示。

不同算法模型在SemanticKITTI數(shù)據(jù)集上的語義場景補全結(jié)果匯總

通過匯總的實驗結(jié)果可以看出,我們提出的算法模型在主要的mIoU評測指標(biāo)上實現(xiàn)了與SOTA想接近的性能。此外,我們提出的算法模型有助于區(qū)分相似的目標(biāo)類別,并顯著提高卡車以及其他車輛的重建效果。

此外,為了驗證我們提出算法模型對于全景3D場景重建任務(wù)的有效性,我們將提出的算法模型與其它的算法模型進(jìn)行了實驗對比,相關(guān)的結(jié)果如下所示。

不同算法模型在SemanticKITTI數(shù)據(jù)集上全景3D場景補全結(jié)果匯總

通過上述的實驗結(jié)果可以看出,我們提出的算法模型的場景補全性能明顯優(yōu)于對SSC方法的輸出進(jìn)行聚類的算法。與MonoScene算法模型相比,我們提出的PanoSSC算法模型的全景重建質(zhì)量更高,特別是對于前景類別。

此外,為了更加直觀的展示各個算法模型在不同類別上的表現(xiàn)性能,我們也將相關(guān)實驗結(jié)果進(jìn)行了匯總,如下所示

不同算法模型針對不同類別的重建性能

通過實驗結(jié)果可以看出,與對語義占用頭和TPVFormer模型的輸出結(jié)果進(jìn)行歐氏聚類相比,添加實例補全頭模塊可以大大提高算法模型對于卡車和其他車輛的全景重建質(zhì)量??梢赃M(jìn)一步的證明我們提出的網(wǎng)絡(luò)模型可以更準(zhǔn)確地區(qū)分這三個相似的目標(biāo)類別:汽車、卡車和其他車輛。

定量分析部分

下圖展示了不同的算法模型對于全景3D場景重建效果可視化圖,通過實驗結(jié)果可以看出,我們提出的PanoSSC算法模型具有最佳的重建效果。

不同算法模型的全景3D場景重建效果

結(jié)論

在本文中,我們提出了一種新穎的體素化場景理解方法,稱之為PanoSSC,該方法可以解決室外語義占用預(yù)測和全景三維場景重建任務(wù)。在SemanticKITTI數(shù)據(jù)集上的相關(guān)實驗結(jié)果表明,我們提出的PanoSSC算法模型在語義占用預(yù)測任務(wù)上的表現(xiàn)與最先進(jìn)的單目方法相當(dāng)。

#?生成式AI成最大贏家!自動駕駛的下一個風(fēng)口?

剛剛,CVPR 2024 正式公布了最佳論文、最佳學(xué)生論文等獎項。來自谷歌、美國·加州大學(xué)圣迭戈分校等2篇論文獲得了最佳論文獎,來自德國·圖賓根大學(xué)和OSU的2篇論文獲得了最佳學(xué)生論文獎。

2024 年?CVPR?(Computer Vision and Pattern Recogntion Conference) 即國際計算機(jī)視覺與模式識別會議,于6月17日至21日正在美國西雅圖召開。2024?年,今年共提交了11532份有效論文,2719篇論文被接收,錄用率為23.6%。

https://cvpr.thecvf.com/

最佳論文

Generative Image Dynamics

Google Research?(美國·谷歌研究院 )

https://generative-dynamics.github.io/

摘? ?要:我們提出了一種建模場景運動圖像空間先驗的方法。我們的先驗是從真實視頻序列中提取的一系列運動軌跡中學(xué)習(xí)得到的,這些視頻展示了自然的、振蕩的動態(tài),比如樹木、花朵、蠟燭和在風(fēng)中搖曳的衣服。我們在傅里葉域中建模了這種密集的、長期的運動先驗:給定一張單獨的圖像,我們訓(xùn)練的模型使用頻率協(xié)調(diào)的擴(kuò)散抽樣過程來預(yù)測一個頻譜體積,可以將其轉(zhuǎn)換為跨越整個視頻的運動紋理。除了基于圖像的渲染模塊,這些軌跡還可以用于許多下游應(yīng)用,比如將靜止圖像轉(zhuǎn)換為無縫循環(huán)的視頻,或者通過將頻譜體積解釋為圖像空間的模態(tài)基礎(chǔ)來讓用戶在真實圖片中與對象進(jìn)行真實交互,從而近似對象動態(tài)。

Rich Human Feedback for Text-to-lmage Generation

University of California, San Diego?(美國·加州大學(xué)圣迭戈分校)

https://arxiv.org/abs/2312.10240

近期的文本到圖像(T2I)生成模型,如?Stable Diffusion?和 Imagen,在基于文本描述生成高分辨率圖像方面取得了顯著進(jìn)展。然而,許多生成的圖像仍然存在問題,例如偽影/不合理性、與文本描述不一致以及美學(xué)質(zhì)量低下。受到強(qiáng)化學(xué)習(xí)與人類反饋(RLHF)在大型語言模型中的成功啟發(fā),之前的研究收集了人類提供的圖像評分反饋,并訓(xùn)練了一個獎勵模型來改進(jìn) T2I 生成。在本文中,我們通過以下方式豐富了反饋信號:(i)標(biāo)記與文本不一致或不合理的圖像區(qū)域,以及(ii)注釋文本提示中被誤述或缺失的單詞。我們收集了在18K個生成的圖像(RichHF-18K)上提供這樣豐富的人類反饋,并訓(xùn)練了一個多模態(tài) Transformer 來自動預(yù)測豐富的反饋。我們展示了預(yù)測的豐富人類反饋可以用于改進(jìn)圖像生成,例如通過選擇高質(zhì)量的訓(xùn)練數(shù)據(jù)來微調(diào)和改進(jìn)生成模型,或者通過創(chuàng)建具有預(yù)測熱圖的掩碼來修復(fù)問題區(qū)域。值得注意的是,這些改進(jìn)適用于超出用于收集人類反饋數(shù)據(jù)的圖像生成模型(Stable Diffusion變體)的模型(Muse)。

最佳學(xué)生論文

Mip-Splatting: Alias-free 3D Gaussian Splatting

University of Tübingen?(德國·圖賓根大學(xué))

https://github.com/autonomousvision/mip-splatting(代碼已開源)

摘? ?要:進(jìn)來,3D高斯點染已經(jīng)展示出令人印象深刻的新視角合成結(jié)果,達(dá)到了高保真度和高效率。然而,在改變采樣率(例如,通過改變焦距或相機(jī)距離)時,可以觀察到明顯的偽影。我們發(fā)現(xiàn),這種現(xiàn)象的源頭可以歸因于缺乏 3D 頻率約束和使用 2D 膨脹濾波器。為了解決這個問題,我們引入了一個 3D 平滑濾波器,該濾波器基于輸入視圖引起的最大采樣頻率約束了 3D 高斯基元的大小,消除了放大時的高頻偽影。此外,用 2D Mip 濾波器替換 2D 膨脹,這模擬了 2D 盒濾波器,有效地減輕了混疊和膨脹問題。我們的評估,包括在單尺度圖像上進(jìn)行訓(xùn)練并在多個尺度上進(jìn)行測試的情況,驗證了我們方法的有效性。

BioCLlP: A Vision Foundation Model for the Tree of Life

The Ohio State University (美國·俄亥俄州立大學(xué))

https://imageomics.github.io/bioclip/(數(shù)據(jù)代碼已開源)

https://arxiv.org/abs/2311.18803

摘要:從無人機(jī)到個人手機(jī),收集到的自然界圖像越來越豐富,成為了生物信息的重要來源。針對從圖像中提取與生物學(xué)相關(guān)信息的科學(xué)和保護(hù)需求,計算方法和工具(尤其是計算機(jī)視覺方法)如雨后春筍般涌現(xiàn)。然而,大多數(shù)方法都是為特定任務(wù)而設(shè)計的定制方法,并不容易適應(yīng)或擴(kuò)展到新的問題、背景和數(shù)據(jù)集。針對圖像上的一般性生物學(xué)問題,我們急需一個視覺模型。為了解決這個問題,我們策劃并發(fā)布了 TreeOfLife-10M,這是迄今為止最大、最多樣化的 ML 準(zhǔn)備好的生物圖像數(shù)據(jù)集。然后,我們開發(fā)了 BioCLIP,這是一個基于生命樹的基礎(chǔ)模型,利用了 TreeOfLife-10M 所捕捉到的生物學(xué)的獨特屬性,即植物、動物和真菌的圖像豐富多樣,以及豐富的結(jié)構(gòu)化生物學(xué)知識。我們對我們的方法進(jìn)行了嚴(yán)格的基準(zhǔn)測試,涉及到多樣化的細(xì)粒度生物分類任務(wù),并發(fā)現(xiàn) BioCLIP 在各項任務(wù)中始終表現(xiàn)出色,顯著優(yōu)于現(xiàn)有的基線方法(絕對優(yōu)勢達(dá)到16%到17%)。內(nèi)在評估表明,BioCLIP 已學(xué)會了符合生命樹的分層表示,揭示了其強(qiáng)大的泛化能力。

其他獎項

#?Agent Attention

全新注意力范式!清華Agent Attention:無縫集成Softmax和Linear

本文介紹了一種新型的注意力機(jī)制Agent Attention,它結(jié)合了Softmax Attention和Linear Attention的優(yōu)點。Agent Attention通過引入Agent token來平衡Query token與Key-value對之間的關(guān)系,提高了Transformer模型的效率和性能。

有趣的是,本文展示了 Agent attention 等效于 Linear attention 的廣義形式。因此,代理注意力無縫集成了強(qiáng)大的 Softmax attention 和高效的 Linear attention。

作者通過大量實驗表明,Agent attention 在各種視覺任務(wù)中證明了有效性,包括圖像分類、目標(biāo)檢測、語義分割和圖像生成。而且,代理注意力在高分辨率場景中表現(xiàn)出顯著的性能,這得益于其線性注意力性質(zhì)。例如,當(dāng)應(yīng)用于 Stable Diffusion 時,Agent attention 會加速生成并顯著提高圖像生成質(zhì)量,且無需任何額外的訓(xùn)練。

圖1:Softmax Attention,Linear Attention 以及 Agent Attention

1 Agent Attention:集成 Softmax 和 Linear 注意力機(jī)制

論文名稱:Agent Attention: On the Integration of Softmax and Linear Attention (Arxiv 2023.12)

論文地址:https://arxiv.org/pdf/2312.08874

代碼鏈接:https://github.com/LeapLabTHU/Agent-Attention

1.1 Agent Attention 集成 Softmax Attention 和 Linear Attention 的優(yōu)勢

將 Transformer 和 Self attention 引入視覺領(lǐng)域會帶來巨大的挑戰(zhàn)。現(xiàn)代 Transformer 模型通常采用 Softmax attention,計算每個 Query 和 Key 之間的相似度,導(dǎo)致計算復(fù)雜度隨 token 數(shù)量呈二次方關(guān)系。為了解決這個問題,現(xiàn)有的工作通過設(shè)計高效的注意力機(jī)制來降低計算復(fù)雜度。比如,Swin Transformer[1]減少了感受野,將 Self-Attention 的計算限制在局部窗口上。PVT[2]采用稀疏 Attention,通過減少 Key 和 Value 的數(shù)量來減輕計算負(fù)擔(dān)。盡管這些方法很有效,但它們不可避免地?fù)p害了對遠(yuǎn)程關(guān)系進(jìn)行建模的能力,并且仍然不如全局 Self-Attention。

由于全局 Self-Attention 的內(nèi)在冗余,Agent token 的數(shù)量可以設(shè)計為遠(yuǎn)小于 Query token 的數(shù)量。作者發(fā)現(xiàn)簡單地匯集原始 Query token 來當(dāng)做 Agent token 的效果就非常好。這個做法可以將 Softmax Attention 的二次復(fù)雜度降低到線性復(fù)雜度,同時保留了全局上下文建模能力。有趣的是,如圖 1 所示,Agent Attention 可以看作是廣義的線性注意力。換句話說,Agent Attention 集成了 Softmax 和線性注意力,并享受二者的優(yōu)勢。

1.2 Softmax Attention 和 Linear Attention 計算范式

1.3 Agent Transformer

Softmax 和 Linear 注意力要么計算復(fù)雜度過高,要么模型表達(dá)能力不足。以前的研究通常將這兩種注意力范式視為不同的方法,并嘗試降低 Softmax Attention 的計算成本或提高 Linear Attention 的性能。Agent Attention 集成了 Softmax Attention 和 Linear Attention,同時享受線性復(fù)雜度和高表現(xiàn)力的好處。

首先將 Softmax 和 Linear Attention 縮寫為:

多樣性恢復(fù)模塊

盡管 Agent Attention 受益于低計算復(fù)雜度和高模型表達(dá)能力,但它也受到特征多樣性不足的影響。作為補救措施,作者遵循[5]的做法并采用深度卷積 (DWC) 模塊來保留特征多樣性。

在這些設(shè)計的基礎(chǔ)上,作者提出了一種新的 Agent Attention 模塊,其可以表述為:

式中,??。

Agent Attention 模塊的優(yōu)勢

1) 高效計算和強(qiáng)表達(dá)能力:?之前的工作通常將 Softmax Attention 和 Linear Attention 視為兩種不同的注意力范式,旨在解決它們各自的局限性。作為這兩種注意力形式的無縫集成,Agent Attention 繼承了兩者的優(yōu)點,同時具有較低的計算復(fù)雜度和高模型表達(dá)能力。

2) 大感受野:?Agent Attention 可以在保持相同數(shù)量的計算量的同時采用較大的感受野。得益于線性復(fù)雜度,Agent Attention 可以在保持線性計算量的同時享受大甚至全局感受野的優(yōu)勢。

1.4 感知任務(wù)實驗結(jié)果

ImageNet-1K 實驗結(jié)果

如圖3所示,在各種模型中將 Softmax Attention 替換為 Agent Attention 可以顯著提高性能。例如,Agent-PVT-S 在僅使用 30% 的參數(shù)和 40% 的 FLOPs 時超過了 PVT-L。Agent-Swin-T/S 在保持相似 FLOPs 的同時比 SwinT/S 高出 1.3% 和 0.7%。這些結(jié)果明確證明 Agent Attention 方法具有優(yōu)勢,且能夠適應(yīng)不同的架構(gòu)。

圖3:ImageNet-1K 實驗結(jié)果

作者通過在各種設(shè)備上部署模型來進(jìn)一步進(jìn)行實際速度測量。圖4說明了本文模型在 CPU 上實現(xiàn)了 1.7 到 2.1 倍的推理速度,同時提高了性能。在 RTX3090 GPU 和 A100 GPU 上,本文模型也實現(xiàn)了 1.4 倍到 1.7 倍的推理速度。

圖4:ImageNet 上的 Accuracy-Runtime 曲線。運行時使用圖像分辨率 224×224 進(jìn)行測試

COCO 目標(biāo)檢測實驗結(jié)果

作者將本文模型應(yīng)用于 RetinaNet、Mask R-CNN 和 Cascade Mask R-CNN 框架來評估本文方法的性能。使用具有不同檢測頭的 1x 和 3x schedules 進(jìn)行了一系列實驗。如圖5所示,本文模型在所有配置中都表現(xiàn)出一致的增強(qiáng)。Agent-PVT 優(yōu)于 PVT 模型,box AP 從 +3.9 增加到 +4.7,而 Agent-Swin 超過 Swin 模型高達(dá) +1.5 box AP。這些實質(zhì)性的改進(jìn)可以歸因于大感受野,證明了 Agent Attention 在高分辨率場景的有效性。

圖5:COCO 目標(biāo)檢測實驗結(jié)果

ADE20K 語義分割實驗結(jié)果

作者將本文模型應(yīng)用于2個分割模型,SemanticFPN 和 UperNet。結(jié)果如圖6所示。值得注意的是,Agent-PVT-T 和 Agent-Swin-T 比 PVT-T 和 Swin-T 高 +3.61 和 +2.17 的 mIoU。結(jié)果表明本文模型與各種分割 Backbone 兼容,并且都實現(xiàn)了改進(jìn)。

圖6:ADE20K 語義分割實驗結(jié)果

1.5 生成任務(wù)實驗結(jié)果

擴(kuò)散模型的出現(xiàn)使得生成高分辨率和高質(zhì)量的圖像成為可能。然而,當(dāng)前的擴(kuò)散模型主要使用具有全局感受野的 Softmax Attention,導(dǎo)致計算成本大,且生成速度慢。作者將 Agent Attention 應(yīng)用于 Stable Diffusion[6],希望提高模型的生成速度。經(jīng)過簡單的調(diào)整,使用 Agent Attention (稱為 AgentSD) 的 Stable Diffusion 的生成速度展示出顯著改進(jìn),并且在沒有任何額外訓(xùn)練的情況下產(chǎn)生了更好的圖像質(zhì)量。

作者實際上將 Agent Attention 應(yīng)用于 ToMeSD 模型[7]。ToMeSD 在 Stable Diffusion 的注意力計算之前減少了 token 的數(shù)量,提高了生成速度。盡管如此,合并后的 token 數(shù)量仍然很大,導(dǎo)致持續(xù)的復(fù)雜度和延遲。因此,作者將 ToMeSD 模型中的 Softmax Attention 替換為 Agent Attention,以進(jìn)一步提高速度。作者通過實驗發(fā)現(xiàn),通過 token merging[8]生成 Agent token 時,Agent Attention 可以直接應(yīng)用于 Stable Diffusion 和 ToMeSD 模型,而不需要任何額外的訓(xùn)練。除此之外,作者通過在早期擴(kuò)散生成步驟中應(yīng)用 Agent Attention 并保持后面的步驟不變來獲得顯著提升。

作者定量比較了 AgentSD 與 Stable Diffusion 和 ToMeSD。如圖7所示,ToMeSD 在保持相似圖像質(zhì)量的同時加速了 Stable Diffusion。AgentSD 不僅進(jìn)一步加速了 ToMeSD,而且顯著提高了圖像生成質(zhì)量。具體而言,在保持卓越的圖像生成質(zhì)量的同時,與 Stable Diffusion 和 ToMeSD 相比,AgentSD 的生成速度提高了 1.84 倍和 1.69 倍。在等效的生成速度下,與 ToMeSD 相比,AgentSD 生成 FID 分?jǐn)?shù)低 0.9。

圖7:Stable Diffusion, ToMeSD 和 AgentSD 的定量結(jié)果

作者在圖8中展示了一些可視化結(jié)果。與 Stable Diffusion 和 ToMeSD 相比,AgentSD 顯著地減少了歧義和生成錯誤。例如,在第1列中,Stable Diffusion 和 ToMeSD 產(chǎn)生一條腿和兩個尾巴的鳥類,而 AgentSD 的樣本沒有表現(xiàn)出這個問題。在第3列中,當(dāng)提供 "A high quality photo of a mitten" 的 prompt 時,Stable Diffusion 和 ToMeSD 錯誤地生成貓,而 AgentSD 產(chǎn)生了正確的圖像。

圖8:由 Stable Diffusion、ToMeSD (r = 40%) 和 AgentSD (r = 40%) 生成的樣本

用于微調(diào)的 AgentSD

作者將代理注意力應(yīng)用于基于 SD 的 Dreambooth[9],以驗證其在微調(diào)下的性能。當(dāng)微調(diào)時,Agent Attention 可以集成到所有擴(kuò)散生成步驟中,與原始 Dreambooth 相比,生成速度提高了 2.2 倍。

1.6 大感受野和高分辨率

現(xiàn)代視覺 Transformer 通常將 Self-Attention 的計算限制在局部窗口上,以降低計算復(fù)雜度,比如 Swin。如下圖9所示,作者逐漸擴(kuò)展 Swin 的窗口大小從 7^27^2 到 56^256^2 。顯然,隨著感受野的擴(kuò)展,模型的性能不斷提高。這表明,雖然窗口注意力范式是有效的,但它不可避免地?fù)p害了 Self-Attention 的遠(yuǎn)程建模能力,仍然不如全局注意力機(jī)制。由于 Agent Attention 的線性復(fù)雜度,可以從全局感受野中受益,同時仍然保持相同的計算復(fù)雜度。

圖9:基于 Agent-Swin-T 的窗口大小消融實驗結(jié)果

受 Softmax attention 的二次復(fù)雜度的限制,當(dāng)前的視覺 Transformer 通常通過增加模型深度和寬度來擴(kuò)大。作者也嘗試了 EfficientNet 中提出的提升輸入分辨率的方法,結(jié)果如圖10所示。

圖10:通過增加分辨率來縮放模型

與 DeiT-B 相比,Agent-DeiT-B 實現(xiàn)了 0.2 的精度增益,而 448^2448^2 分辨率下的 Agent-DeiT-S 僅用四分之一的參數(shù)達(dá)到了 83.1% 的精度。作者在縮放 Agent-PVT-M 和 Agent-Swin-S 時觀察到了類似的趨勢,在圖11中,作者逐漸增加 Agent-Swin-S、Swin-S 和 Swin-B 的分辨率。在高分辨率場景中,本文模型性能始終比較優(yōu)越。

圖11:增加分辨率到 256×256, 288×288, 320×320, 352×352, 384×384 的結(jié)果

1.7 與其他線性注意力機(jī)制的對比

作者使用 DeiT-T 和 Swin-T 將本文的 Agent Attention 與其他 Linear Attention 方法進(jìn)行比較。如圖12所示,各種 Linear Attention 方法替換 DeiT-T 和 Swin-T 所采用的 Softmax Attention 通常會導(dǎo)致顯著的性能下降。值得注意的是,本文模型優(yōu)于其他方法以及 Softmax 基線模型。

圖12:不同線性注意設(shè)計的比較

Agent token 數(shù)量的消融實驗結(jié)果

模型的計算復(fù)雜度可以通過改變 Agent token 的數(shù)量來加以調(diào)節(jié)。如圖13所示,可以觀察到減少淺層中的 agent token 數(shù)量對性能沒有不利的影響。但是,在更深層中減少 agent token 的數(shù)量導(dǎo)致性能下降。

圖13:Agent token 數(shù)量的消融實驗結(jié)果

參考

^Swin Transformer: Hierarchical Vision Transformer using Shifted Windows ^Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions ^Rethinking Attention with Performers ^SOFT: Softmax-free Transformer with Linear Complexity ^FLatten Transformer: Vision Transformer using Focused Linear Attention ^High-Resolution Image Synthesis with Latent Diffusion Models ^Token Merging for Fast Stable Diffusion ^Token Merging: Your ViT But Faster ^DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

# 相信靠「端到端」就能實現(xiàn) L4,就該改行了。

去年年底馬斯克的?FSD V12 全球直播,重新訓(xùn)練的系統(tǒng)完全沒有給這位科技頂流一點面子。

在全球觀眾的見證下,特斯拉試圖闖一次陣仗最大的紅燈,來告訴所有人:端到端自動駕駛,其實沒有那么容易。

「是技術(shù)進(jìn)步,還是一意孤行」,在一個傳統(tǒng)分模塊的技術(shù)棧面前顯而易見的 Bug 出現(xiàn)了之后,也就有了討論的空間。

但是,好在 FSD V12 并沒有停滯不前,這些討論并不會傳到技術(shù)開拓者的耳朵里。

FSD V12.3 發(fā)布,馬斯克宣布北美車主可以試用一個月。

事情開始發(fā)生變化,由「端到端是一條死路」,變成了「路況還是簡單,有本事到國內(nèi)來試試」。

進(jìn)入 2024 年,國內(nèi)廠商突然然開始著手宣傳端到端,各大廠商都有意無意地透露,自己正在這個方向上押重注。

3 月 17 日,在汽車百人會上,二線智能駕駛廠商元戎啟行突然宣布,元戎啟行是國內(nèi)第一家能夠?qū)⒍说蕉四P统晒ι宪嚨娜斯ぶ悄芷髽I(yè); 4 月 24 日 ADS 2.0 升級為乾崑 3.0,技術(shù)轉(zhuǎn)向 GOD/PDP 網(wǎng)絡(luò)全新架構(gòu),對外稱是端到端架構(gòu); 5 月 20 日,小鵬汽車舉辦了以「開啟AI智駕時代」為主題的AI DAY發(fā)布會,宣布端到端大模型已經(jīng)量產(chǎn)上車; 5 月 22 日,傳出消息,小米汽車原圖森未來首席科學(xué)家王乃巖即將帶領(lǐng)團(tuán)隊加入小米汽車,負(fù)責(zé)端到端自動駕駛團(tuán)隊,而王乃巖樂于表達(dá),在知乎上也曾多次抨擊端到端自動駕駛;

就像 2021 年 BEV 浪潮一樣,各大廠商再次在自動駕駛路線上達(dá)成了一致。

那么什么是端到端自動駕駛,先進(jìn)在何處,真的能幫助我們獲得更好的自動駕駛體驗嗎?

01 什么是端到端自動駕駛

經(jīng)典的自動駕駛系統(tǒng)有著相對統(tǒng)一的系統(tǒng)架構(gòu):

探測(detection); 跟蹤(tracking); 靜態(tài)環(huán)境建圖(mapping) 高精地圖定位; 目標(biāo)物軌跡預(yù)測 本車軌跡規(guī)劃; 運動控制。

幾乎所有的自動駕駛系統(tǒng)都離不開這些子系統(tǒng),在常規(guī)的技術(shù)開發(fā)中,這些模塊分別由不同的團(tuán)隊分擔(dān),各自負(fù)責(zé)自己模塊的結(jié)果輸出。

這樣的好處是,每一個子系統(tǒng)都能夠有足夠好的可解釋性,在開發(fā)時能夠獨立優(yōu)化。

與此同時,為了保證整體自動駕駛的性能,每一個模塊都需要保證給出穩(wěn)定的表現(xiàn)。

如果將這些系統(tǒng)簡單分為兩部分,可以是感知系統(tǒng)和規(guī)劃控制系統(tǒng):

其實最主要的特征是:感知得到結(jié)果之后,將結(jié)果傳遞給規(guī)劃控制系統(tǒng)。

為了讓系統(tǒng)表現(xiàn)足夠好,其實暗含了兩個條件:

感知的結(jié)果足夠正確 規(guī)劃控制獲得的信息足夠豐富

很遺憾,這兩條都難以保證,為何?

規(guī)劃控制所有從感知得到的信息,都是感知工程師基于現(xiàn)有的資源定義好的,這里的資源包括:標(biāo)注的能力、獲取相應(yīng)數(shù)據(jù)的能力,甚至工程師們對駕駛的理解。

舉一個非常簡單的例子,一般來說我們開車時候發(fā)現(xiàn)前車打轉(zhuǎn)向燈,我們會相對開始警覺,并且給前車足夠的空間進(jìn)入本車道,但是由于團(tuán)隊限于資源,并沒有識別前車轉(zhuǎn)向的信號。

這個「前車打開轉(zhuǎn)向燈」的信息,對于規(guī)劃控制來說,它就是丟失了。

「因此發(fā)現(xiàn)轉(zhuǎn)向燈信號,并且提前做出反應(yīng)」,這個策略就成了一個不可能完成的任務(wù)。

這就引出了模塊化自動駕駛的弊端:信息的有損傳遞。

下游任務(wù)得到的信息是不充分的,就相當(dāng)于有兩個駕駛員,其中主駕眼睛被蒙住,只負(fù)責(zé)操作;另一個坐在副駕駛,由他來告訴主駕駛前方發(fā)生了什么。

而信息的傳遞方式是兩個駕駛員都能理解的,我們可以稱之為:信息的顯式表達(dá)。

舉個例子,駕駛的語境中前方目標(biāo)的識別,就是高度抽象的顯式表達(dá),一輛車被抽象成、速度、位置、尺寸、加速度等。

這種表達(dá)是人為用經(jīng)驗抽象出來并且傳遞給下游。

但是「被誤解是表達(dá)者的宿命」,人和人之間的信息傳遞一定是有損的,所以這種開車方式很難達(dá)到非常好的體驗。

優(yōu)秀的分模塊系統(tǒng)就相當(dāng)于兩個駕駛員有了足夠的駕駛默契,但是絕對不能與一個有足夠駕駛經(jīng)驗的司機(jī)對比。

既然信息顯示表達(dá)傳遞會有損耗,那該怎么做?

這里有個概念是:信息的隱式表達(dá)。

我們常常看到一些論文提到 Feature 層,這是一些信息在神經(jīng)網(wǎng)絡(luò)中的某一層的特征表達(dá),是在訓(xùn)練過程中,網(wǎng)絡(luò)自行學(xué)到的重要信息。但是這些信息不是靠人為定義確定的,我們的經(jīng)驗并不能完全理解,但是神經(jīng)網(wǎng)絡(luò)能夠理解,自動選擇重要的信息。

回到自動駕駛語境中,那就是如果信息的表達(dá)是有損耗的,那么就不表達(dá)了,直接將用神經(jīng)網(wǎng)絡(luò)里的信號與下游對接起來。

這其實就是 CVPR 2023 年 Best Paper UniAD 的思路:分模塊端到端。

分模塊端到端

模塊與模塊之間的信息傳遞不再是開發(fā)工程師能夠直接閱讀并且理解的內(nèi)容,而是直接將幾個模塊連接起來,然后在訓(xùn)練中進(jìn)行全局優(yōu)化。

由此產(chǎn)生了區(qū)別于傳統(tǒng)自動駕駛技術(shù)棧最重要的結(jié)構(gòu)特征:全局可導(dǎo)并且可以全局訓(xùn)練。

UniAD

這里我們簡單看一下UniAD 的思路,從結(jié)構(gòu)上看,如果不考慮各模塊之間的連接,可能會認(rèn)為這就是一個傳統(tǒng)的大力飛磚,所有的模塊都用 Transformer 進(jìn)行改造的系統(tǒng)。因為依然可以很明顯的看到 BEV freature 層、MapFormer(建圖)、TrackFormer(跟蹤)等模塊。

但是,其實最重要的改進(jìn)并不是如此,而是各個模塊之間的連接方式,并不是像我們傳統(tǒng)技術(shù)棧一樣,用初級工程師甚至駕駛員完全能夠理解的方式進(jìn)行連接的,而是通過神經(jīng)網(wǎng)絡(luò)的方式進(jìn)行連接。

當(dāng)然由于開環(huán)評測方式(并不是實際運行結(jié)果,與環(huán)境并沒有交互)過于單一。業(yè)內(nèi)也有學(xué)者對其提出批評,認(rèn)為由于 UniAD 主要在 Nuscenes 上進(jìn)行開環(huán)評測,導(dǎo)致大部分的軌跡,模型只要輸出合適的直行命令即可獲得較好的結(jié)果,并且甚至還設(shè)計了一個新的模型,將感知結(jié)果完全丟失,只留下自車和周圍車輛的軌跡,也能獲得不錯的結(jié)果。

VAD

這篇論文發(fā)表在 2023 年的 ECCV 上,相較于 UniAD ,摒棄了傳統(tǒng)技術(shù)棧中的柵格化表征,對整個駕駛場景進(jìn)行矢量化建模,同樣與 UniAD 一致,VAD 基于統(tǒng)一的 Transformer 結(jié)構(gòu)。

動態(tài)目標(biāo)信息由 Vectorized Motion Transformer 提取,實現(xiàn)動態(tài)目標(biāo)檢測和矢量化的軌跡預(yù)測; 靜態(tài)地圖由 Vectorized Map Transformer 提取; Planning Transformer 以隱式的動靜態(tài)場景特征作為輸入,并且獲得相應(yīng)的規(guī)劃信息。

從結(jié)構(gòu)來看,OCC 的模塊被完全拋棄了。

對此論文中也有解釋,OCC 的模塊一定程度上作為后處理兜底的任務(wù),具有較大的算力開銷,而 VAD 選擇在訓(xùn)練階段引入更多約束,降低對后處理兜底的需求。

于此同時,VAD 也在 Carla(一種被學(xué)界廣泛使用的自動駕駛模擬器)中進(jìn)行了評測,也獲得了非常好的結(jié)果。

從這兩篇論文中我們不難看出,學(xué)界對于端到端自動駕駛的態(tài)度應(yīng)該是可連接并且全局可以進(jìn)行共同優(yōu)化訓(xùn)練的端到端,而非一個完全的純黑盒網(wǎng)絡(luò),還是從原有的自動駕駛技術(shù)棧進(jìn)行改進(jìn)而來,這實際上與大模型無關(guān),也與 nWorld Model 也并沒有產(chǎn)生實際的聯(lián)系。

那么既然定義清楚了,業(yè)內(nèi)是否都有必要切換呢?切換的難度在什么地方?

02 端到端自動駕駛會帶來什么

全局可導(dǎo)并且全局優(yōu)化是端到端結(jié)構(gòu)上的特點,這種特點能帶來什么呢?

「Scaling Law」

這是一個非常流行的詞匯,從 ChatGPT 3.5 橫空出世,震驚之余人們總結(jié)出來的經(jīng)驗,通俗的說法即:數(shù)據(jù)驅(qū)動,大力出奇跡。

這也是 OpenAI 奉為圭臬的開發(fā)準(zhǔn)則,事實證明這條路確實能夠產(chǎn)生出來目前最優(yōu)秀的人工智能產(chǎn)品,ChatGPT4、Sora,都遵循這條規(guī)則。

而自動駕駛現(xiàn)有的技術(shù)棧每個模塊之間是不可連接的,每個模塊之間是靠人為和規(guī)則進(jìn)行連接的,無法完全靠數(shù)據(jù)進(jìn)行全局訓(xùn)練,那么 Scaling Rule 至少在目前在自動駕駛界是無效的。

而端到端自動駕駛在一定程度上就給了 Scaling Law 發(fā)揮的余地,這符合目前人工智能的大趨勢。

在傳統(tǒng)的技術(shù)棧解決問題上,不論多么復(fù)雜的 Corner Case 都需要工程師們,用非常抽象的方式將場景描述清楚,收集數(shù)據(jù)然后標(biāo)注,解決問題,然后驗證。

但是實際上場景浩如煙海,很多任務(wù)非?,嵥椋詥吸c突破的方式幾乎沒有可能完全解決。

所以有些公司的場景待解決庫里面會將重點的安全問題先處理,而小頻率的體驗問題會之后處理,而這些小頻率的體驗問題,可能就決定了,這個場景的處理是否類人。

例如,紅綠燈前的減速度是否絲滑,是否是根據(jù)當(dāng)時的車道線和交通參與者做的實時判斷?

6 月 7 日,在上海人工智能實驗室主辦的端到端研討會上,前段時間離職加入小米的消息引發(fā)廣泛關(guān)注的王乃巖提出:

端到端可以將很瑣碎的任務(wù),用人類的駕駛習(xí)慣進(jìn)行統(tǒng)一的監(jiān)督,降低開發(fā)成本,與可解釋的傳統(tǒng)技術(shù)棧結(jié)合,可能可以帶領(lǐng)我們走向 L4 甚至 L5。

03 端到端自動駕駛的難點

我們都知道神經(jīng)網(wǎng)絡(luò)是黑盒系統(tǒng),目前其實也沒有辦法去控制神經(jīng)網(wǎng)絡(luò)內(nèi)部發(fā)生了什么,而這天然與自動駕駛要求的安全性和可靠性相悖。

在傳統(tǒng)的技術(shù)棧中,如果遇到了一個問題,是可以通過分模塊的方式找到出問題的部分,例如感知層給的目標(biāo)的位置不對、規(guī)劃給的軌跡不好。

但是端到端系統(tǒng)這些方式就失效了。

更好的問題歸因優(yōu)化和驗證系統(tǒng)迫在眉睫。

如何找到合適的數(shù)據(jù)

我們可以將同樣基本是黑盒的感知系統(tǒng)推廣到整個自動駕駛系統(tǒng)上。

以前感知如果出了問題應(yīng)該怎么做,這里舉一個非常典型的 Corner Case, 公交車上廣告牌的人形圖案,這個問題特斯拉、理想都爆出過誤識別新聞。

應(yīng)該如何解決這個問題?

挖掘足夠的的公交車上廣告牌的人形圖案數(shù)據(jù),扔給神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,不斷優(yōu)化感知系統(tǒng),規(guī)劃和控制部分可以保持不變。

那么再進(jìn)一步,已經(jīng)是端到端系統(tǒng)了,如果現(xiàn)在結(jié)果是車輛誤剎。

那么問題的歸因就成了一個巨大的問題,因為沒有辦法馬上知道,是因為這個人形圖案帶來的 BUG,也就無法去對應(yīng)尋找數(shù)據(jù)。

即使找到了對應(yīng)的問題,尋找特定的數(shù)據(jù)也是巨大工程,需要在數(shù)據(jù)閉環(huán)系統(tǒng)中找到相似的人形公交視頻和人類駕駛數(shù)據(jù),再進(jìn)入端到端系統(tǒng)進(jìn)行訓(xùn)練。

那么新的問題又出現(xiàn)了,如何驗證問題已經(jīng)修復(fù)并且性能不回退呢?

如何驗證端到端自動駕駛系統(tǒng)

我們知道傳統(tǒng)的自動駕駛技術(shù)棧通過仿真虛擬進(jìn)行大規(guī)模驗證得出結(jié)論后,可以上車進(jìn)行實車測試。

而這里最重要的區(qū)別是,仿真的驗證。

在傳統(tǒng)的技術(shù)棧中,可以將每個模塊分開來驗證的,感知和規(guī)劃可以分別用數(shù)據(jù)在云上大規(guī)模驗證,每個團(tuán)隊都會有一個數(shù)據(jù)庫,每次新系統(tǒng)上線會將數(shù)據(jù)喂到新系統(tǒng)里面進(jìn)行大規(guī)模驗證。

這是之前的經(jīng)驗。

但是這里有兩個問題:

大部分團(tuán)隊的驗證方式是開環(huán)驗證,也就是并沒有與環(huán)境產(chǎn)生任何交互,只驗證輸入和輸出鏈路。 大部分團(tuán)隊對感知的驗證還無法用純虛擬的方式進(jìn)行,需要實車數(shù)據(jù)才可以完成。

而這與端到端自動駕駛是相悖的。

端到端駕駛系統(tǒng)在上車跑之前,必須要用虛擬的方式全局驗證通過,否則上車跑通無異于天方夜譚。

那么就涉及到一個非常好的可以模擬所有感知輸出的自動駕駛模擬器,而且能夠在這個模擬器里面模仿所有的交通參與者的交互信息。

即為了保證系統(tǒng)在真實世界的安全性,我們需要在虛擬世界中將系統(tǒng)充分驗證。

前文提到的 Carla 在一定程度上可以滿足學(xué)界的需求,但是場景的單一和渲染的質(zhì)量,離業(yè)界的要求依然想去甚遠(yuǎn)。

其實不難看到,端到端自動駕駛依然依賴原有的自動駕駛開發(fā)工具鏈,優(yōu)秀的數(shù)據(jù)閉環(huán)工具用來收集數(shù)據(jù),優(yōu)秀的自動駕駛仿真系統(tǒng)用來驗證,而這大部分團(tuán)隊幾乎都沒有。

從這個角度來看,端到端自動駕駛無法進(jìn)行彎道超車

寫在最后

雖然著名反 OpenAI 人工智能專家楊樂昆認(rèn)為,現(xiàn)有的 LLM 盡管在自然語言處理、對話交互、文本創(chuàng)作等領(lǐng)域表現(xiàn)出色,但其仍只是一種「統(tǒng)計建?!辜夹g(shù)。

通過學(xué)習(xí)數(shù)據(jù)中的統(tǒng)計規(guī)律來完成相關(guān)任務(wù),本質(zhì)上并非具備真正的「理解」和「推理」能力。

而這個理論似乎放在端到端自動駕駛上也成立,相似的是最近港大的著名學(xué)者馬毅提出:如果相信只靠 Scaling Laws 能實現(xiàn) AGI,你該改行了。

那么似乎我們也可以說:如果相信只靠端到端就能實現(xiàn) L5,那么你該改行了。

不過,我們目前看到最有希望的一條路已經(jīng)擺在了我們面前,雖然這條路看不到是否能夠通向終點,這條路似乎也沒有那么簡單,路上充滿了很多不確定性,抵觸的聲音不絕于耳。

但是特斯拉已經(jīng)向我們示范了這條路的巨大潛力。Taobao? 開發(fā)板商城? whaosoft?aiot?http://143ai.com??天皓智聯(lián)

所以,我們?yōu)槭裁床蝗L試呢?

-------

柚子快報邀請碼778899分享:自動駕駛合集53

http://yzkb.51969.com/

文章來源

評論可見,查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。

轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://m.gantiao.com.cn/post/19506117.html

發(fā)布評論

您暫未設(shè)置收款碼

請在主題配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪問

文章目錄