国产肉体XXXX裸体137大胆,国产成人久久精品流白浆,国产乱子伦视频在线观看,无码中文字幕免费一区二区三区 国产成人手机在线-午夜国产精品无套-swag国产精品-国产毛片久久国产

博客專欄

EEPW首頁 > 博客 > 大模型加持的機器人有多強,MIT CSAIL&IAIFI用自然語言指導(dǎo)機器人抓取物體

大模型加持的機器人有多強,MIT CSAIL&IAIFI用自然語言指導(dǎo)機器人抓取物體

發(fā)布人:機器之心 時間:2023-08-21 來源:工程師 發(fā)布文章
來自 MIT CSAIL 和 IAIFI 的研究者將準確的 3D 幾何圖形與來自 2D 基礎(chǔ)模型的豐富語義結(jié)合起來,讓機器人能夠利用 2D 基礎(chǔ)模型中豐富的視覺和語言先驗,完成語言指導(dǎo)的操作。

最近,具身智能成為人工智能領(lǐng)域關(guān)注的一個焦點。從斯坦福大學(xué)的 VIMA 機器人智能體,到谷歌 DeepMind 推出首個控制機器人的視覺 - 語言 - 動作(VLA)的模型 RT-2,大模型加持的機器人研究備受關(guān)注。

當前,自監(jiān)督和語言監(jiān)督的圖像模型已經(jīng)包含豐富的世界知識,這對于泛化來說非常重要,但圖像特征是二維的。我們知道,機器人任務(wù)通常需要對現(xiàn)實世界中三維物體的幾何形狀有所了解。

基于此,來自 MIT CSAIL 和 IAIFI 的研究者利用蒸餾特征場(Distilled Feature Field,DFF),將準確的 3D 幾何圖形與來自 2D 基礎(chǔ)模型的豐富語義結(jié)合起來,讓機器人能夠利用 2D 基礎(chǔ)模型中豐富的視覺和語言先驗,完成語言指導(dǎo)的操作。


論文地址:https://arxiv.org/abs/2308.07931


具體來說,該研究提出了一種用于 6-DOF 抓取和放置的小樣本學(xué)習(xí)方法,并利用強大的空間和語義先驗泛化到未見過物體上。使用從視覺 - 語言模型 CLIP 中提取的特征,該研究提出了一種通過開放性的自然語言指令對新物體進行操作,并展示了這種方法泛化到未見過的表達和新型物體的能力。

方法介紹


該研究分析了少樣本和語言指導(dǎo)的操作,其中需要在沒見過類似物體的情況下,給定抓取演示或文本描述,機器人就能拾取新物體。為了實現(xiàn)這一目標,該研究圍繞預(yù)訓(xùn)練圖像嵌入構(gòu)建了系統(tǒng),這也是從互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)集中學(xué)習(xí)常識先驗的可靠方法。


下圖 1 描述了該研究設(shè)計的系統(tǒng):機器人首先使用安裝在自拍桿上的 RGB 相機拍攝一系列照片來掃描桌面場景,這些照片用于構(gòu)建桌面的神經(jīng)輻射場 (NeRF)。最重要的是,該神經(jīng)輻射場經(jīng)過訓(xùn)練不僅可以渲染 RGB 顏色,還可以渲染來自預(yù)訓(xùn)練視覺基礎(chǔ)模型的圖像特征。這會產(chǎn)生一種場景表征,稱為蒸餾特征場(DFF),它將 2D 特征圖的知識嵌入到 3D 體積中。然后,機器人參考演示和語言指令來抓取用戶指定的物體。


圖片


該研究的一大亮點是從 CLIP 模型中提取密集的二維特征,來給蒸餾特征場提供監(jiān)督。此前,OpenAI 的 CLIP 模型僅提供圖片尺度的全局特征,而 3D 神經(jīng)場的生成需要密集的 2D 描述符。


 為了解決這個問題,研究團隊使用 MaskCLIP 對 CLIP 的視覺模型進行重新參數(shù)化,提取 patch 級密集特征。此方法不需要重新訓(xùn)練,可以保證其描述符與語言模型的對齊。


具身智能 (embodied intelligence) 囊括機器人,自動駕駛汽車等和物理世界有相互作用的人工智能體。這類智能體需要對物理世界同時進行幾何空間和語義的理解來進行決策。


為了實現(xiàn)這樣的表征能力,研究團隊將視覺基礎(chǔ)模型和視覺 - 語言基礎(chǔ)模型中經(jīng)過預(yù)訓(xùn)練的二維視覺表征通過可微分的三維渲染,構(gòu)建為 3D 特征場。團隊將這個方法運用在 6-DOF 機器人抓取任務(wù)上,這種方法叫作機器人操作特征場(Feature Fields for Robotic Manipulation,F(xiàn)3RM)的方法需要解決三個獨立的問題:


  • 首先,如何以合理的速度自動生成場景的特征場;

  • 其次,如何表征和推斷 6-DOF 抓取和放置的姿勢;

  • 最后,如何結(jié)合語言指導(dǎo)來實現(xiàn)開放文本命令。


圖片


自然語言提供了一種將機器人操作擴展到開放物體集的方法,為目標物體照片不準確或不可用的情況提供了一種替代方案。在測試時,機器人接收來自用戶的開放文本語言查詢,其中指定要操作的物體。如下圖 3 所示,語言指導(dǎo)的姿勢推斷過程包括三個步驟:


  • 檢索相關(guān)演示;

  • 初始化粗略抓??;

  • 語言指導(dǎo)的抓取姿勢優(yōu)化。


圖片


實驗結(jié)果


我們先來看一些機器人抓取的實驗效果。例如,使用 F3RM 方法,機器人可以輕松抓取一個螺絲刀工具:


圖片


抓取小熊玩偶:


圖片


抓取透明杯子和藍色杯子:


圖片


圖片


把物體掛放在不同材質(zhì)的架子上:


圖片


圖片


F3RM 還可以識別并抓取一些不常見的物體,比如化學(xué)領(lǐng)域會用到的量勺、量杯:


圖片


圖片


為了表明機器人能夠利用 2D 基礎(chǔ)模型中豐富的視覺和語言先驗,并且可以泛化到未見過的新型物體上,該研究還進行了一系列抓取和放置任務(wù)的實驗,我們來看下實驗結(jié)果。


從示例中學(xué)會抓握


如下圖 4 所示,該研究進行了 6-DOF 抓取和放置任務(wù),并為每個任務(wù)提供兩個演示。為了標記演示,該研究將 NeRF 重建的點云加載到虛擬現(xiàn)實中,并使用手動控制器將夾子移動到所需的姿勢(圖 2 (a))。


圖片



機器人在抓取和放置任務(wù)上的成功率如下表 1 所示:


圖片


下圖 5 展示了該研究所提方法在未見過的新物體上的泛化情況:


圖片



此外,語義特征和詳細 3D 幾何圖形之間的融合提供了一種對密集的堆疊進行建模的方法。例如,在下圖 6 (b) 中,毛毛蟲玩具被埋在其他玩具下面。圖 6 (c) 顯示機器人抓住了毛毛蟲玩具,并將其從玩具堆的底部拾起。


圖片



語言指導(dǎo)的機器人抓取


該研究設(shè)置了 13 個桌面場景來研究使用開放文本語言和 CLIP 特征場來指定要操作物體的可行性。


在下圖 7 中,機器人在語言指導(dǎo)下成功執(zhí)行了 5 個抓握。整個場景包含 11 個物體,其中 4 個來自 YCB 物體數(shù)據(jù)集。


圖片


語言指導(dǎo)的操作成功率如下表 2 所示:


圖片


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉