大模型加持的機器人有多強，MIT CSAIL&IAIFI用自然語言指導(dǎo)機器人抓取物體

發(fā)布人：機器之心時間：2023-08-21 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

來自 MIT CSAIL 和 IAIFI 的研究者將準確的 3D 幾何圖形與來自 2D 基礎(chǔ)模型的豐富語義結(jié)合起來，讓機器人能夠利用 2D 基礎(chǔ)模型中豐富的視覺和語言先驗，完成語言指導(dǎo)的操作。

最近，具身智能成為人工智能領(lǐng)域關(guān)注的一個焦點。從斯坦福大學(xué)的 VIMA 機器人智能體，到谷歌 DeepMind 推出首個控制機器人的視覺 - 語言 - 動作（VLA）的模型 RT-2，大模型加持的機器人研究備受關(guān)注。

當前，自監(jiān)督和語言監(jiān)督的圖像模型已經(jīng)包含豐富的世界知識，這對于泛化來說非常重要，但圖像特征是二維的。我們知道，機器人任務(wù)通常需要對現(xiàn)實世界中三維物體的幾何形狀有所了解。

基于此，來自 MIT CSAIL 和 IAIFI 的研究者利用蒸餾特征場（Distilled Feature Field，DFF），將準確的 3D 幾何圖形與來自 2D 基礎(chǔ)模型的豐富語義結(jié)合起來，讓機器人能夠利用 2D 基礎(chǔ)模型中豐富的視覺和語言先驗，完成語言指導(dǎo)的操作。

論文地址：https://arxiv.org/abs/2308.07931

具體來說，該研究提出了一種用于 6-DOF 抓取和放置的小樣本學(xué)習(xí)方法，并利用強大的空間和語義先驗泛化到未見過物體上。使用從視覺 - 語言模型 CLIP 中提取的特征，該研究提出了一種通過開放性的自然語言指令對新物體進行操作，并展示了這種方法泛化到未見過的表達和新型物體的能力。

方法介紹

該研究分析了少樣本和語言指導(dǎo)的操作，其中需要在沒見過類似物體的情況下，給定抓取演示或文本描述，機器人就能拾取新物體。為了實現(xiàn)這一目標，該研究圍繞預(yù)訓(xùn)練圖像嵌入構(gòu)建了系統(tǒng)，這也是從互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)集中學(xué)習(xí)常識先驗的可靠方法。

下圖 1 描述了該研究設(shè)計的系統(tǒng)：機器人首先使用安裝在自拍桿上的 RGB 相機拍攝一系列照片來掃描桌面場景，這些照片用于構(gòu)建桌面的神經(jīng)輻射場 (NeRF)。最重要的是，該神經(jīng)輻射場經(jīng)過訓(xùn)練不僅可以渲染 RGB 顏色，還可以渲染來自預(yù)訓(xùn)練視覺基礎(chǔ)模型的圖像特征。這會產(chǎn)生一種場景表征，稱為蒸餾特征場（DFF），它將 2D 特征圖的知識嵌入到 3D 體積中。然后，機器人參考演示和語言指令來抓取用戶指定的物體。

該研究的一大亮點是從 CLIP 模型中提取密集的二維特征，來給蒸餾特征場提供監(jiān)督。此前，OpenAI 的 CLIP 模型僅提供圖片尺度的全局特征，而 3D 神經(jīng)場的生成需要密集的 2D 描述符。

為了解決這個問題，研究團隊使用 MaskCLIP 對 CLIP 的視覺模型進行重新參數(shù)化，提取 patch 級密集特征。此方法不需要重新訓(xùn)練，可以保證其描述符與語言模型的對齊。

具身智能（embodied intelligence) 囊括機器人，自動駕駛汽車等和物理世界有相互作用的人工智能體。這類智能體需要對物理世界同時進行幾何空間和語義的理解來進行決策。

為了實現(xiàn)這樣的表征能力，研究團隊將視覺基礎(chǔ)模型和視覺 - 語言基礎(chǔ)模型中經(jīng)過預(yù)訓(xùn)練的二維視覺表征通過可微分的三維渲染，構(gòu)建為 3D 特征場。團隊將這個方法運用在 6-DOF 機器人抓取任務(wù)上，這種方法叫作機器人操作特征場（Feature Fields for Robotic Manipulation，F(xiàn)3RM）的方法需要解決三個獨立的問題：