欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁綜合 正文
目錄

柚子快報激活碼778899分享:【論文閱讀——機器人操作】

柚子快報激活碼778899分享:【論文閱讀——機器人操作】

http://yzkb.51969.com/

1. 【2022CoRL MIT&GOOGLE】MIRA: Mental Imagery for Robotic Affordances

動機

人類能夠形成3D場景的心理圖像,以支持反事實想象、規(guī)劃和運動控制。

解決方案

給定一組2D RGB圖像,MIRA用nerf構建一致的3D場景表示,通過該表示合成新的正交視圖,適用于像素級可承受性預測以優(yōu)化動作。

使用 NeRF 作為場景表示來執(zhí)行新穎的視圖合成以實現(xiàn)精確的對象重新排列?!揪W絡輸入是RGB】

所以,核心是使用nerf【instant-NGP】來合成新的視角,有利于機器人操作的視角,來完成任務。

MIRA使用神經輻射場(NeRF)作為機器人的“心靈之眼”,以想象場景的外觀。結合可承受性模型,預測從任何給定視圖的場景中當前可執(zhí)行的動作。機器人在想象中搜索最佳可承受性的動作對應的心理圖像,然后執(zhí)行與該心理圖像相對應的動作。

缺點

MIRA目前需要為每個操縱步驟訓練一個場景的NeRF,這在實時視覺-運動控制任務中可能面臨挑戰(zhàn)?!痉夯院懿睢?作者提出了使用多個攝像頭觀察場景或學習即時NGP的先驗以大幅減少運行時間的可能性。

2. 【CoRL 2022 (oral)】Instruction-driven history-aware policies for robotic manipulations

輸入的表征是RGB-D。

動機

一個重要的挑戰(zhàn)是序列任務需要跟蹤可能從當前觀察中隱藏的對象狀態(tài),或者記住之前執(zhí)行的動作。這種行為難以用主要依賴當前觀察的方法來建模。另一個挑戰(zhàn)是操作任務,這些任務需要精確控制機器人末端執(zhí)行器以達到目標位置。這類任務在單視圖方法中難以解決,特別是在視覺遮擋和不同大小的物體存在的情況下。

解決方案

論文提出了一種Transformer架構,該架構能夠整合自然語言指令、多視角場景觀察以及觀察和動作的完整歷史記錄。

Hiveformer——一個歷史感知的指令條件多視圖Transformer。它將指令轉換為語言標記,并結合了過去和當前的視覺觀察以及自我感知的標記。這些標記被連接并輸入到多模態(tài)Transformer中,該Transformer聯(lián)合建模當前和過去觀察之間的依賴關系、多攝像機視圖之間的空間關系,以及視覺和指令之間的精細交叉模態(tài)對齊?;诙嗄B(tài)Transformer的輸出表示,使用UNet解碼器預測7自由度動作,即位置、旋轉和夾持器的狀態(tài)。

使用交叉注意力層學習當前觀察與指令和歷史記錄的跨模態(tài)關系。 使用自注意力層學習來自多個相機視圖的補丁標記之間的內部關系。 通過前饋網絡進一步處理這些關系。

缺點

由于 Transformer,計算成本隨輸入序列長度二次增加。此外,我們的模型使用行為克隆進行訓練,可能會受到暴露偏差的影響。未來的研究可以使用分層模型提高長期任務的效率,并結合強化學習。此外,我們的模型僅針對合成指令進行訓練,在人工編寫的指令上表現(xiàn)較差。對人工編寫的自動生成指令進行訓練可以幫助提高性能

3. 【CoRL 2023】PolarNet: 3D Point Clouds for Language-Guided Robotic Manipulation

動機

讓機器人能夠理解并執(zhí)行基于自然語言指令的操作任務是機器人技術的長期目標。 語言引導操作的主要方法使用 2D 圖像表示,這在組合多視角攝像機和推斷精確的 3D 位置和關系方面面臨困難

好的relate work寫法

Most existing work on language-guided robotic manipulation uses 2D image representations [1, 2, 3, 4]. BC-Z [1] applies ResNet [5] to encode a single-view image for action prediction. Hiveformer [3] employs transformers [6] to jointly encode multi-view images and all the history. Recent advances in vision and language learning [7, 8] have further paved the way in image-based manipulation [4]. CLIPort [4] and InstructRL [9] take advantage of pretrained vision-and-language models [8, 10] to improve generalization in multi-task manipulation. GATO [11] and PALM-E [12] jointly train robotic tasks with massive web image-text data for better representation and task reasoning.

Although 2D image-based policies have achieved promising results, they have inherent limitations for manipulation in the 3D world. First, they do not take full advantage of multi-view cameras for visual occlusion reasoning, as multi-view images are not explicitly aligned with each other, as shown in Figure 1. Second, accurately inferring the precise 3D positions and spatial relations [13] from 2D images is a significant challenge. Current 2D approaches mainly rely on extensive pretraining and sufficient in-domain data to achieve satisfactory performance.

盡管基于 2D 圖像的策略取得了令人鼓舞的成果,但它們在 3D 世界中的操作存在固有的局限性。

為了克服基于2D的操控策略學習的限制,近期的研究已經轉向基于3D的方法。使用3D表示提供了一種自然的方式來融合多視圖觀察,并促進更精確的3D定位。例如,PerAct采用了一種以動作為中心的方法,它采用超過100萬個體素的高維輸入來分類下一個活躍的體素,為多任務語言引導的操控取得了最先進的結果。然而,這種以動作為中心的3D體素存在量化誤差和計算效率低下的問題。以點云形式的替代3D表示已經成功地用于3D對象檢測、分割和定位。然而,對于機器人操控來說,3D點云的有效和高效處理仍然未被充分探索。此外,現(xiàn)有的工作主要集中在單一任務操控上,缺乏同時整合語言指令以完成多項任務的多功能性。

解決方案

所提出的 PolarNet 采用精心設計的點云輸入、高效的點云編碼器和多模態(tài)轉換器來預測語言條件操作的 7-DoF 動作。我們發(fā)現(xiàn)將點顏色與顏色一起使用、過濾不相關的點以及合并多個視圖至關重要。

缺點

【多任務學習方法】我們的多任務模型仍然不如最好的單任務模型,需要更先進的多任務學習算法?!痉夯圆粔颉看送?,雖然我們的策略可以執(zhí)行多項任務,但我們還沒有研究對新場景、對象和任務的泛化。

4. 【corl2022】PERCEIVER-ACTOR: A Multi-Task Transformer for Robotic Manipulation

https://kimi.moonshot.cn/share/cpcip8e0atp5gutos860

Additional Related Work

附錄I Voxel-based representations have been used in several domains that specifically benefit from 3D understanding. Like in object detection [91, 92], object search [93], and vision-language grounding [94, 95], voxel maps have been used to build persistent scene representations [96]. In Neural Radiance Fields (NeRFs), voxel feature grids have dramatically reduced training and rendering times [97, 98]. Similarly, other works in robotics have used voxelized representations to embed viewpoint-invariance for driving [99] and manipulation [100]. The use of latent vectors in Perceiver [1] is broadly related to voxel hashing [101] from computer graphics. Instead of using a location-based hashing function to map voxels to fixed size memory, PerceiverIO uses cross attention to map the input to fixed size latent vectors, which are trained end-to-end. Another major difference is the treatment of unoccupied space. In graphics, unoccupied space does not affect rendering, but in PERACT, unoccupied space is where a lot of “action detections” happen. Thus the relationship between unoccupied and occupied space, i.e., scene, objects, robot, is crucial for learning action representations.

缺點

在附錄L中講了很多:

Generlization to Novel Instances and Objects.

5. 【CoRL 2023 (Oral)】RVT: Robotic View Transformer for 3D Object Manipulation

輸入:RGB-D

動機

基于視圖的方法直接處理單個或多個相機的圖像,并在拾取放置和物體重新排列任務上取得了顯著的成功。然而,這些基于視圖的方法在需要3D推理的任務上成功有限

但是,創(chuàng)建和推理體素的成本比基于圖像的推理更高,因為體素的數量隨著分辨率的增加而呈立方比例增加,而圖像像素則呈平方比例增加。這使得基于體素的方法在可擴展性方面不如基于視圖的方法。

我們能否構建一個既能表現(xiàn)良好又繼承基于視圖方法的可擴展性的操縱網絡?

解決方案

與以前的基于視圖的方法不同,作者們通過從虛擬視圖重新渲染圖像,將相機圖像與輸入到變換器的圖像解耦。這允許他們控制渲染過程,并帶來幾個好處。例如,他們可以從對任務有用的視點重新渲染(例如,直接在桌子上方),而不受現(xiàn)實世界物理約束的限制。此外,由于RVT的多視圖輸入是通過重新渲染獲得的,即使在現(xiàn)實世界實驗中,也可以使用單個傳感器相機

缺點

視圖選擇:盡管作者們探索了不同的視圖選項并找到了一個適用于多個任務的配置,但未來的研究可以進一步優(yōu)化視圖的選擇過程,甚至從數據中學習視圖選擇。相機到機器人基座的外參校準:與之前的基于視圖的方法以及顯式的體素基方法(如PerAct和C2F-ARM)相比,RVT需要校準相機到機器人基座的外參。未來的工作可以探索消除這一要求的擴展。現(xiàn)實世界應用:盡管RVT在模擬環(huán)境中表現(xiàn)出色,但在現(xiàn)實世界的應用可能面臨不同的挑戰(zhàn),如傳感器噪聲和復雜環(huán)境因素。進一步的研究可以集中在提高模型在現(xiàn)實世界條件下的魯棒性。

6. 【2024Baidu】 VIHE: Virtual In-Hand Eye Transformer for 3D Robotic Manipulation

基于二維圖像的操作

動機

現(xiàn)有方法通常均勻地處理三維工作空間,忽略了末端執(zhí)行器附近的空間對于操作任務自然發(fā)生的歸納偏差的重要性。以前的研究強調了在手視角的價值:例如,有研究表明在手視圖揭示了更多與任務相關的細節(jié),這對于高精度任務特別有利。同樣,有研究表明,結合在手視圖可以減少與夾持器動作無關的干擾,從而提高泛化能力。

7. Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation

輸入:點云

解決方案

Act3D是一個策略變換器,它在給定時間步長t時,根據一個或多個RGB-D圖像、語言指令以及有關機器人當前末端執(zhí)行器姿態(tài)的本體感知信息,預測6-DoF末端執(zhí)行器姿態(tài)。模型的核心思想是通過迭代的粗到細3D點采樣和特征化來估計高分辨率的3D動作圖,從而學習自由空間的3D感知表示。

缺點

Act3D [8] 利用點云進行 3D 表示,但在計算上也受到大量采樣點的影響,并且忽略了操作任務中空間偏差的潛在優(yōu)勢。

柚子快報激活碼778899分享:【論文閱讀——機器人操作】

http://yzkb.51969.com/

相關閱讀

評論可見,查看隱藏內容

本文內容根據網絡資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。

轉載請注明,如有侵權,聯(lián)系刪除。

本文鏈接:http://m.gantiao.com.cn/post/18951017.html

發(fā)布評論

您暫未設置收款碼

請在主題配置——文章設置里上傳

掃描二維碼手機訪問

文章目錄