讓機(jī)器人感知你的「Here you are」,清華團(tuán)隊(duì)使用百萬場(chǎng)景打造通用人機(jī)交接
來自清華大學(xué)交叉信息研究院的研究者提出了「GenH2R」框架,讓機(jī)器人學(xué)習(xí)通用的基于視覺的人機(jī)交接策略(generalizable vision-based human-to-robot handover policies)。這種可泛化策略使得機(jī)器人能更可靠地從人們手中接住幾何形狀多樣、運(yùn)動(dòng)軌跡復(fù)雜的物體,為人機(jī)交互提供了新的可能性。
隨著具身智能(Embodied AI)時(shí)代的來臨,我們期待智能體能主動(dòng)與環(huán)境進(jìn)行交互。在這個(gè)過程中,讓機(jī)器人融入人類生活環(huán)境、與人類進(jìn)行交互(Human Robot Interaction)變得至關(guān)重要。我們需要思考如何理解人類的行為和意圖,以最符合人類期望的方式滿足其需求,將人類放在具身智能的中心(Human-Centered Embodied AI)。其中一個(gè)關(guān)鍵的技能是可泛化的人機(jī)交接(Generalizable Human-to-Robot Handover),它使機(jī)器人能夠更好地與人類合作,完成各種日常通用任務(wù),如烹飪、居室整理和家具組裝等。
大模型的火爆發(fā)展預(yù)示著海量高質(zhì)量數(shù)據(jù)+大規(guī)模學(xué)習(xí)是走向通用智能的一種可能方式,那么能否通過海量機(jī)器人數(shù)據(jù)與大規(guī)模策略模仿獲取通用人機(jī)交接技能?然而,若考慮在現(xiàn)實(shí)世界中讓機(jī)器人與人類進(jìn)行大規(guī)模交互學(xué)習(xí)是危險(xiǎn)且昂貴的,機(jī)器很有可能會(huì)傷害到人類:
而在仿真環(huán)境中(Simulation)進(jìn)行訓(xùn)練,用人物仿真和動(dòng)態(tài)抓取運(yùn)動(dòng)規(guī)劃來自動(dòng)化提供海量多樣的機(jī)器人學(xué)習(xí)數(shù)據(jù),然后將其部署到真實(shí)機(jī)器人上(Sim-to-Real Transfer),是一種更可靠的基于學(xué)習(xí)的方法,可以大大拓展機(jī)器人與人協(xié)作交互的能力。
因此,「GenH2R」框架被提出,分別從仿真(Simulation),示例(Demonstration),模仿(Imitation)三個(gè)角度出發(fā),讓機(jī)器人第一次基于端到端的方式學(xué)習(xí)對(duì)任意抓取方式、任意交接軌跡、任意物體幾何的通用交接:1)在「GenH2R-Sim」環(huán)境中提供了百萬級(jí)別的易于生成的各種復(fù)雜仿真交接場(chǎng)景,2)引入一套自動(dòng)化的基于視覺 - 動(dòng)作協(xié)同的專家示例(Expert Demonstrations)生成流程,3)使用基于 4D 信息和預(yù)測(cè)輔助(點(diǎn)云 + 時(shí)間)的模仿學(xué)習(xí)(Imitation Learning)方法。
相比于 SOTA 方法(CVPR2023 Highlight),GenH2R 的方法在各種測(cè)試集上平均成功率提升 14%,時(shí)間上縮短 13%,并在真機(jī)實(shí)驗(yàn)中取得更加魯棒的效果。
- 論文地址:https://arxiv.org/abs/2401.00929
- 論文主頁(yè):https://GenH2R.github.io
- 論文視頻:https://youtu.be/BbphK5QlS1Y
方法介紹
A. 仿真環(huán)境(GenH2R-Sim)
為了生成高質(zhì)量、大規(guī)模的人手 - 物體數(shù)據(jù)集,GenH2R-Sim 環(huán)境從抓取姿勢(shì)和運(yùn)動(dòng)軌跡兩方面對(duì)場(chǎng)景建模。
在抓取姿勢(shì)方面,GenH2R-Sim 從 ShapeNet 中引入了豐富的 3D 物體模型,從中挑選出 3266 個(gè)適合交接的日常物體,使用靈巧抓取的生成方法(DexGraspNet),總共生成了 100 萬個(gè)人手抓住物體的場(chǎng)景。在運(yùn)動(dòng)軌跡方面,GenH2R-Sim 使用若干控制點(diǎn)生成多段光滑的 Bézier 曲線,并引入人手和物體的旋轉(zhuǎn),模擬出手遞物體的各種復(fù)雜運(yùn)動(dòng)軌跡。
GenH2R-Sim 的 100 萬場(chǎng)景中,不僅在運(yùn)動(dòng)軌跡(1 千 vs 100 萬)、物體數(shù)量(20 vs 3266)兩方面遠(yuǎn)超之前最新工作,此外,還引入了接近真實(shí)情境的互動(dòng)信息(如機(jī)械臂足夠靠近物體時(shí),人會(huì)配合停止運(yùn)動(dòng),等待完成交接),而非簡(jiǎn)單的軌跡播放。盡管仿真生成的數(shù)據(jù)不能完全逼真,但實(shí)驗(yàn)結(jié)果表明,相比小規(guī)模的真實(shí)數(shù)據(jù),大規(guī)模的仿真數(shù)據(jù)更有助于學(xué)習(xí)。
B. 大規(guī)模生成利于蒸餾的專家示例
基于大規(guī)模的人手和物體運(yùn)動(dòng)軌跡數(shù)據(jù),GenH2R 自動(dòng)化地生成了大量專家示例。GenH2R 尋求的 “專家” 是經(jīng)過改進(jìn)后的 Motion Planner(如 OMG Planner),這些方法是非學(xué)習(xí)、基于控制優(yōu)化的,不依賴于視覺的點(diǎn)云,往往需要一些場(chǎng)景狀態(tài)(比如物體的目標(biāo)抓取位置)。為了確保后續(xù)的視覺策略網(wǎng)絡(luò)能夠蒸餾出有益于學(xué)習(xí)的信息,關(guān)鍵在于確保 “專家” 提供的示例具有視覺 - 動(dòng)作相關(guān)性(Vision-action correlation)。規(guī)劃時(shí)如果知道最后落點(diǎn),那么機(jī)械臂可以忽略視覺而直接規(guī)劃到最終位置 “守株待兔”,這樣可能會(huì)導(dǎo)致機(jī)器人的相機(jī)無法看到物體,這種示例對(duì)于下游的視覺策略網(wǎng)絡(luò)并沒有任何幫助;而如果頻繁地根據(jù)物體位置進(jìn)行重新規(guī)劃,可能會(huì)導(dǎo)致機(jī)械臂動(dòng)作不連續(xù),出現(xiàn)奇怪的形態(tài),無法完成合理的抓取。
為了生成出利于蒸餾(Distillation-friendly)的專家示例,GenH2R 引入了 Landmark Planning。人手的運(yùn)動(dòng)軌跡會(huì)按照軌跡光滑程度和距離被分成多段,以 Landmark 作為分割標(biāo)記。在每一段中,人手軌跡是光滑的,專家方法會(huì)朝著 Landmark 點(diǎn)進(jìn)行規(guī)劃。這種方法可以同時(shí)保證視覺 - 動(dòng)作相關(guān)性和動(dòng)作連續(xù)性。
C. 以預(yù)測(cè)為輔助的 4D 模仿學(xué)習(xí)網(wǎng)絡(luò)
基于大規(guī)模專家示例,GenH2R 使用模仿學(xué)習(xí)的方法,構(gòu)建 4D 策略網(wǎng)絡(luò),對(duì)觀察到的時(shí)序點(diǎn)云信息進(jìn)行幾何和運(yùn)動(dòng)的分解。對(duì)于每一幀點(diǎn)云,通過迭代最近點(diǎn)算法(Iterative Closest Point)計(jì)算和上一幀點(diǎn)云之間的位姿變換,以估計(jì)出每個(gè)點(diǎn)的流(flow)信息,使得每一幀點(diǎn)云都具有運(yùn)動(dòng)特征。接著,使用 PointNet++ 對(duì)每一幀點(diǎn)云編碼,最后不僅解碼出最終需要的 6D egocentric 動(dòng)作,還會(huì)額外輸出一個(gè)物體未來位姿的預(yù)測(cè),增強(qiáng)策略網(wǎng)絡(luò)對(duì)未來手和物體運(yùn)動(dòng)的預(yù)測(cè)能力。
不同于更加復(fù)雜的 4D Backbone(例如 Transformer-based),這種網(wǎng)絡(luò)架構(gòu)的推理速度很快,更適用于交接物體這種需要低延時(shí)的人機(jī)交互場(chǎng)景,同時(shí)它也能有效地利用時(shí)序信息,做到了簡(jiǎn)單性和有效性的平衡。
實(shí)驗(yàn)
A. 仿真環(huán)境實(shí)驗(yàn)
GenH2R 和 SOTA 方法進(jìn)行了各種設(shè)定下的比較,相比于使用小規(guī)模真實(shí)數(shù)據(jù)訓(xùn)練的方法,在 GenH2R-Sim 中使用大規(guī)模仿真數(shù)據(jù)進(jìn)行訓(xùn)練的方法,可以取得顯著的優(yōu)勢(shì)(在各種測(cè)試集上成功率平均提升 14%,時(shí)間上縮短 13%)。
在真實(shí)數(shù)據(jù)測(cè)試集 s0 中,GenH2R 的方法可以成功交接更復(fù)雜的物體,并且能夠提前調(diào)整姿勢(shì),避免在夾爪靠近物體時(shí)再頻繁進(jìn)行姿勢(shì)調(diào)整:
在仿真數(shù)據(jù)測(cè)試集 t0(GenH2R-sim 引入)中,GenH2R 的方法可以能夠預(yù)測(cè)物體的未來姿勢(shì),以實(shí)現(xiàn)更加合理的接近軌跡:
在真實(shí)數(shù)據(jù)測(cè)試集 t1(GenH2R-sim 從 HOI4D 引入,比之前工作的 s0 測(cè)試集增大約 7 倍)中,GenH2R 的方法可以泛化到?jīng)]有見過的、具有不同幾何形狀的真實(shí)世界物體。
B. 真機(jī)實(shí)驗(yàn)
GenH2R 同時(shí)將學(xué)到的策略部署到現(xiàn)實(shí)世界中的機(jī)械臂上,完成 “sim-to-real“的跳躍。
對(duì)于更復(fù)雜的運(yùn)動(dòng)軌跡(例如旋轉(zhuǎn)),GenH2R 的策略展示出更強(qiáng)的適應(yīng)能力;對(duì)于更復(fù)雜的幾何,GenH2R 的方法更可以展現(xiàn)出更強(qiáng)的泛化性:
GenH2R 完成了對(duì)于各種交接物體的真機(jī)測(cè)試以及用戶調(diào)研,展示出很強(qiáng)的魯棒性。
了解更多實(shí)驗(yàn)、方法內(nèi)容,請(qǐng)參考論文主頁(yè)。
團(tuán)隊(duì)介紹
該論文來自清華大學(xué) 3DVICI Lab、上海人工智能實(shí)驗(yàn)室和上海期智研究院,論文的作者為清華大學(xué)學(xué)生汪子凡(共同一作)、陳峻宇(共同一作)、陳梓青和謝鵬威,指導(dǎo)老師是弋力和陳睿。
清華大學(xué)三維視覺計(jì)算與機(jī)器智能實(shí)驗(yàn)室(簡(jiǎn)稱 3DVICI Lab),是清華大學(xué)交叉信息研究院下的人工智能實(shí)驗(yàn)室,由弋力教授組建和指導(dǎo)。3DVICI Lab 瞄準(zhǔn)人工智能最前沿的通用三維視覺與智能機(jī)器人交互問題,研究方向涵蓋具身感知、交互規(guī)劃與生成、人機(jī)協(xié)作等,與機(jī)器人、虛擬現(xiàn)實(shí)、自動(dòng)駕駛等應(yīng)用領(lǐng)域密切聯(lián)系。團(tuán)隊(duì)研究目標(biāo)是使智能體具備理解并與三維世界交互的能力,成果發(fā)表于各大頂級(jí)計(jì)算機(jī)會(huì)議、期刊上。
來源:機(jī)器之心*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。