波士頓動力等中外專家探討“人形機(jī)器人”的過去與未來
8 月24 日,“2024 世界機(jī)器人大會”主論壇進(jìn)入第三天,在下午的主論壇上,舉辦了“為人形機(jī)器人發(fā)展提供新‘動力’”的對話環(huán)節(jié),德國慕尼黑工業(yè)大學(xué)教授Alois C. Knoll主持,AI研究所執(zhí)行主任、波士頓動力公司創(chuàng)始人Marc Raibert(馬克·雷伯特)與來自本土的四家企業(yè)老總參與了討論。
本文引用地址:http://m.ptau.cn/article/202410/463759.htm主持人——德國慕尼黑工業(yè)大學(xué)教授Alois C. Knoll首先做了開場白。
我們已經(jīng)走了很長的路,但也許不是每個人都意識到這是一條非常非常長的路。
人們可能不知道:世界上第一個機(jī)器人就是人形機(jī)器人。
捷克作家卡雷爾·卡佩克(Karel Capek)于1920 年創(chuàng)作了一部名為《R.U.R.(Rossum’s Universal Robots),羅薩姆的通用機(jī)器人》的戲劇,該劇于1921 年首次上演。因此100多年前,機(jī)器人(robot)這個詞出現(xiàn)注1。有點(diǎn)可悲的是,即使在那時,機(jī)器人也基本上接管了人類,并治愈了人類。所以從那一刻起,人形機(jī)器人就有了相當(dāng)負(fù)面的含義注2。
第一個機(jī)械的、實際工作的人形機(jī)器人是由美國西屋電氣公司為1939 年的世界博覽會生產(chǎn)的,叫Elektro。Elektro 2.1 米高,重120 公斤,可以根據(jù)語音命令走路、說大概700 個詞(使用一個錄音機(jī))、抽煙,吹氣球、移動頭和胳膊,光電眼能分辨紅色和綠色光。后來,Elektro 有了一條四條腿的狗作伴,名叫Sparko。
圖1 1940年,Elektro有了自己的機(jī)器狗Sparko
這也是很久以前——80 年前的事了。
如果繼續(xù)前進(jìn),我不得不說,我必須向所有有不同意見的人道歉。這是對此后幾年重要事件的個人看法,早在1973年,微處理器發(fā)明后不久,日本早稻田大學(xué)建造了第一個人形機(jī)器人Wabot-1,它是一個全尺寸的人形機(jī)器人。隨后是Wabot-2,能讀樂譜并彈奏電子鍵盤。它頭上有一個攝像頭,并且有五指,那是在1980年——44 年前的事情了。
第二波浪潮是行走機(jī)器人的時代,在1985—2010年。有一些不同的實驗室參與其中,本田是一家出色的公司,他們從1986 年兩足步行機(jī)開始,以ASIMO 結(jié)束——2005 年推出第二版。遺憾的是,該計劃被終止了。但正如Marc(波士頓動力)所說,如果你真的想賺錢,也許在那時,不應(yīng)該建造人形機(jī)器人。也許這種情況正在改變。
在第二波,主要是行走、全身移動和一些有趣的軀干的研發(fā)。
我也做一點(diǎn)自我營銷。在2000 年,我發(fā)起并主持了第一屆IEEE/RAS 人形機(jī)器人會議(Humanoids2000)。
多年來,該會議不斷發(fā)展壯大,最近一次是2024 年在法國舉行的。
2008年,我參與了歐盟旗艦項目的概念開發(fā),2013年是該項目的人腦項目HBP 的聯(lián)合創(chuàng)始人。2009 年參
與了歐盟大型項目ECHOPD(歐洲開放機(jī)器人協(xié)調(diào)中心),是一個為期10 年、耗資5000 萬歐元的大型服務(wù)機(jī)器人項目。
從2006起,我們也做了多款人形機(jī),最新的是2024年的roboy(如圖2)。
圖2 主持人在做開場白。四位國內(nèi)領(lǐng)軍企業(yè)的老總(從左3至右)是:星動紀(jì)元創(chuàng)始人、清華大學(xué)交叉信息研究院助理教授陳建宇,宇樹創(chuàng)始人、CEO兼CTO王興興,北京大學(xué)前沿計算研究中心助理教授、北大銀河通用具身智能聯(lián)合實驗室主任王鶴,北京具身智能機(jī)器人創(chuàng)新中心總經(jīng)理熊友軍。
2 為何對人形機(jī)感興趣
主持人:王興興(宇樹)在大會的主題報告中稱:我們現(xiàn)在正進(jìn)入一個新時代,發(fā)展可能會呈指數(shù)級增長。
想問小組成員的一個問題:是什么讓你們與人形機(jī)聯(lián)系在一起?你為什么對人形機(jī)感興趣?
我很不禮貌,讓我從自己的介紹開始。自2001 年以來,我一直是慕尼黑工業(yè)大學(xué)的教授,我對人形機(jī)器人的一個方面產(chǎn)生了興趣,那就是具身。
我和蘇黎世大學(xué)的朋友Paul Pfizer(音)一起(可惜他已經(jīng)退休了),我們都是具身的堅定信徒。我們認(rèn)為,只有在以非常自然的方式與世界相連的人體中,才能發(fā)展出人形的智能。因此,身體應(yīng)該具有相同的動力學(xué)和尺寸等。否則將很難發(fā)展。關(guān)于這一點(diǎn),可以看到一系列機(jī)器人是這種具身智能的結(jié)果之一。
內(nèi)在功能比外在表象重要
Marc(波士頓動力):人形是否意味著有兩只胳膊、兩條腿、一個頭?實際上,直到最近我才感興趣人形機(jī)器人。我一直認(rèn)為,功能(注:因為Marc 是一名教授)是最重要的——移動性、靈活性、感知力和智力等,形態(tài)和化妝是次要的。另外,人形機(jī)器人意味著動態(tài)的、逼真的,能與外界互動。
我一直是人形機(jī)器人的粉絲,盡管波士頓動力公司制造的第一個機(jī)器人是彈簧棍(音:pogo stick)之類的東西。但我認(rèn)為人形機(jī)器人的許多要素都在那些彈簧棍的東西里。當(dāng)波士頓動力公司開始建造機(jī)器人時,那些直立的、有雙腿和雙臂、有時甚至可以向前移動的機(jī)器人很吸引人公眾(非科學(xué)家、非工程師),例如在視頻網(wǎng)站YouTube上,點(diǎn)擊量會是四條腿機(jī)器人的10 倍以上,可見公眾對人形機(jī)器人更感興趣,而狗卻沒有得到同樣的關(guān)注。
人形機(jī)的幾點(diǎn)改進(jìn)方向
北京具身智能機(jī)器人創(chuàng)新中心總經(jīng)理熊友軍:我開始對機(jī)器人感興趣是在讀博士時——2000 年開始做工業(yè)特種機(jī)器人,用在一些危險環(huán)境里。這是因為那時機(jī)器人技術(shù)還很不成熟,但是在一些領(lǐng)域,尤其在危險場景里必須要由機(jī)器人去完成。
但是那時機(jī)器人的智能是很低的。所以當(dāng)時的辦法是將機(jī)器人的智能跟人的智能結(jié)合起來,所以做了機(jī)器人遙操作。
但是在遙操作過程中,發(fā)現(xiàn)很多場景用工業(yè)機(jī)械手臂、輪式機(jī)械臂解決不了的問題,尤其在一些狹小、復(fù)雜的環(huán)境中,輪式、履帶式進(jìn)不去,但是人可以進(jìn)去;還有一種情況是需要使用很多工具去完成的工作,當(dāng)時用機(jī)械手臂等機(jī)器人很難去完成。可見,人形機(jī)器人應(yīng)該是一種好的工具或解決方案。
當(dāng)年本田公司的機(jī)器人P1(1993)、P2(1996)、P3(1997)及ASIMO(P4 的俗稱,2000),給我提供了一些啟發(fā)。從那時起我對人形機(jī)器人非常感興趣,畢業(yè)后一直從事機(jī)器人方面的工作。
2012 年在上海,我與周劍(注:現(xiàn)任優(yōu)必選CEO)等人合作,一起創(chuàng)建了優(yōu)必選。之后一直在做人形機(jī)器人/ 機(jī)器人的研發(fā)工作。2023 年我從深圳來到北京,籌建了“北京具身智能機(jī)器人創(chuàng)新中心”,聚焦人形機(jī)器人方面的研發(fā),希望解決人形機(jī)器人的一些共性和關(guān)鍵性技術(shù),包括三個方面。
①本體技術(shù)研發(fā)的不足——現(xiàn)在人型機(jī)器人在本體、關(guān)鍵的核心器件、傳感器等方面有非常多要攻克的地方。
②運(yùn)動控制方面的技術(shù)研發(fā),采用深度強(qiáng)化學(xué)習(xí)的運(yùn)動控制方式,包括現(xiàn)在也用一些AI 神經(jīng)網(wǎng)絡(luò)的方式用去做運(yùn)動控制。
③智能的研發(fā),例如用具身智能的方式,做具身智能的一些基礎(chǔ)性工作,例如建數(shù)據(jù)集,去研發(fā)具身智能模型的框架等。
堅持源于熱愛
星動紀(jì)元創(chuàng)始人、清華大學(xué)交叉信息研究院助理教授陳建宇:我的興趣來10歲左右對智能機(jī)器人非常感興趣,例如對本田ASIMO 非常著迷。
但是創(chuàng)業(yè)充滿了挑戰(zhàn)性,例如Marc創(chuàng)辦了波士頓動力公司,并已做了40多年,非常令人尊敬。假設(shè)沒有一個發(fā)自內(nèi)心的、天生的熱愛,是很難堅持下來的。所以我對機(jī)器人的熱愛,某種程度上是與生俱來的。但真正開始做是在大學(xué)本科時,當(dāng)時在學(xué)校里接觸了機(jī)器人,知道IHMC(人類與機(jī)器認(rèn)知研究所)的一款雙足機(jī)器人,當(dāng)時我主要做捕獲點(diǎn)的不太規(guī)范的研究,后來博士階段繼續(xù)做機(jī)器人,雖然不是人形,但也是相關(guān)領(lǐng)域,包括控制、無人車和機(jī)械臂等。
在我回國后,在清華接觸了一個項目后,正式開始投入去做人形機(jī)器人了,后來孵化了星動紀(jì)元公司。如今,星動紀(jì)元最新一代的機(jī)器人是第六代產(chǎn)品。
關(guān)注新的智能體機(jī)器人
宇樹創(chuàng)始人、CEO兼CTO王興興:我10 歲左右就看過波士頓動力公司在MIT 實驗室做的單腿、雙足人形機(jī),印象非常深刻。之后在2009、2010 年——大一寒假時做過一個小人形機(jī)器人,但不太滿意。在研究生期間又做了一款機(jī)器人,采用了低成本的硬件,運(yùn)動性能非常好,可以直接實現(xiàn)關(guān)節(jié)的力控及整機(jī)的力控。開始時我對人形技術(shù)比較悲觀,但是后來在2022年左右,隨著整個機(jī)器人、AI 技術(shù)的進(jìn)步,再加上ChatGPT出來以后,人們看到了人形機(jī)和AI 結(jié)合的可能性,所以宇樹公司重新開始做高性能的人形機(jī)。實際上,宇樹真正感興趣的并不是人形機(jī),而是新的智能體機(jī)器人的形態(tài)。
人形機(jī)器人只是目前人們比較公認(rèn)的一種最有可能的“通用機(jī)器人+ 通用AI”的結(jié)合體,但是這可能并不是唯一的。宇樹希望誕生比人類更高級的智能體,以大大推動人類的工業(yè)變革,推動新的工業(yè)革命。努力研發(fā),使人形機(jī)走進(jìn)千行百業(yè)、千家萬戶北京大學(xué)前沿計算研究中心助理教授、北大銀河通用具身智能聯(lián)合實驗室主任王鶴:我與人形機(jī)器人和具身智能結(jié)緣,是從斯坦福大學(xué)讀博開始,2016 年深度學(xué)習(xí)技術(shù)已經(jīng)出來,也應(yīng)用在了圖像識別、分類等任務(wù)中。
當(dāng)時作為一個前沿研究,人們試圖去理解人類是如何把感知、思考和交互能力融合在一起的。所以我博士期間的第一個工作就是用一個視覺模型來看桌面上人的動作和物體的運(yùn)動,然后推理人下一步想要什么。這是一個語言模型。最后再用一個簡單的機(jī)器人——一個智能的馬克杯去響應(yīng)人的動作。
這個工作獲得了歐洲圖形學(xué)的最佳論文提名。但是它還有很多不足,例如馬克杯只能在桌面上移動;機(jī)器人只能響應(yīng)動作,沒有跟人交互的能力;視覺只能看有限的幾種物體;語言模型只能根據(jù)人與桌面東西的一些動作來做簡單的推理。
通過過去8 年的研究,已取得了一些技術(shù)進(jìn)展,例如怎樣把機(jī)器人的操作能力做得更泛化——什么東西都能抓取和放置;還有跟現(xiàn)在的多模態(tài)大模型技術(shù)相結(jié)合,真正明白人類想讓你干什么、言出法隨地去執(zhí)行。2023年我們還孵化了“北大銀河通用具身智能聯(lián)合實驗室”這家人形機(jī)器人公司。現(xiàn)在把視覺、語言、動作這三種不同的模態(tài)融合到大模型中,真正賦能人形機(jī)器人。公司的愿景是:使人形機(jī)器人能走進(jìn)千行百業(yè)、千家萬戶。
3 今天相比10年前的優(yōu)勢,未來5年將會怎樣?
主持人:在你們看來,我們今天擁有哪些10 年前沒有的重要技術(shù)?因為人們可能會有這樣一個問題,為什么在2000 年時不可能看到今天的情況?對注重實際的人來說至關(guān)重要的:未來5 年,這個行業(yè)將如何發(fā)展?
硬件開發(fā)和AI 在進(jìn)步
Marc(波士頓動力):今天在很大程度上取決于硬件開發(fā)和AI。如果談?wù)撐磥? 年,硬件開發(fā)將繼續(xù)發(fā)揮重要作用,毫無疑問,能夠打破語義理解障礙的基礎(chǔ)模型或其他AI 方法將是最具影響力的。
人類可以做的就是概括和理解他們所看到的事物的意義,但這種意義仍然沒有被真正捕捉到,相信AI 能在這方面取得進(jìn)展。其他將取得巨大進(jìn)步的包括計算機(jī)、傳感器、感知控制、電池等。
我認(rèn)為人們忘記了電池——它是工業(yè)時代的產(chǎn)物,但電池真的很重要。所以在汽車行業(yè),人們在過去的5年里把電池做得更好。
主持人:人形機(jī)也將從電動汽車的電池等技術(shù)發(fā)展中獲利,當(dāng)然還有消費(fèi)電子。
5年內(nèi)可能迎來ChatGPT時刻
北京具身智能機(jī)器人創(chuàng)新中心總經(jīng)理熊友軍:從AI視角來看有非常大的不同:10 年前/2014 年左右,深度學(xué)習(xí)剛出來不久。它解決了圖像處理等問題。之后有兩個重要的里程碑:①以2016 年阿爾法狗為代表的深度強(qiáng)化學(xué)習(xí),而不是學(xué)習(xí)。強(qiáng)化學(xué)習(xí)有非常長的歷史,主要是深度學(xué)習(xí)出來之后,緊接著把它用在了強(qiáng)化學(xué)習(xí)上面。深度強(qiáng)化學(xué)習(xí)解決了強(qiáng)化學(xué)習(xí)的維度災(zāi)難的問題。②最近以ChatGPT 為代表的大語言模型。
所以這兩個是過去10 年以前所沒有,但是又對未來機(jī)器人、具身智能的發(fā)展起著決定性的作用的兩種技術(shù)。
可能在接下來的幾年,這兩項技術(shù)會非常深度地跟人形、具身智能融合起來,但它們也分別需要經(jīng)過一定程度的skill,強(qiáng)化學(xué)習(xí)也需要訓(xùn)練,做比較通用的模型。以大模型為代表,仿真model 也需要去skill,以解決更加豐富的物理世界的數(shù)據(jù)程序。
相信在接下來的5 年,這幾項技術(shù)能取得大的進(jìn)展。我們可能會在5 年內(nèi)迎來ChatGPT 時刻。
機(jī)器人AI 模型的發(fā)展將很快
陳建宇(星動紀(jì)元、清華):過去10 年最大的變化還是由AI 技術(shù)帶來的,人們對AI 能做的事情有更多的信心了。
此外,對于本體企業(yè),包括整個社會對人形機(jī)的共識也是非常關(guān)鍵的。目前人們相信人形機(jī)器人可以產(chǎn)生更多的價值,這在10 年前是完全不能想象的——那時整個社會對人形機(jī)沒有什么信心。
在未來5年,機(jī)器人AI模型的變化會非常快。因為目前AI日新月異,人們可以用AI 集成技術(shù)去搭建各種自己的模型去做訓(xùn)練,整個已經(jīng)變成一個非常扁平化以及容易化的操作過程。因此很多人可以參與進(jìn)來,去做機(jī)器人模型、去做訓(xùn)練。所以未來5 年,各種AI模型創(chuàng)新,包括更新的神經(jīng)網(wǎng)絡(luò)模型、脈沖神經(jīng)網(wǎng)絡(luò)等,都有很多的機(jī)會。
過去實現(xiàn)完美抓取,未來還能夾擰掰
王興興(宇樹):自2014 年以來的10 年發(fā)展很快。10 年前我們已經(jīng)看到了一些曙光。其實在那時,具身智能甚至不是一個在西方學(xué)術(shù)界流行的詞匯。但過去10 年的一大技術(shù)進(jìn)展是:我們在具身智能里已經(jīng)有一些技能實現(xiàn)了非常強(qiáng)的泛化性。
以我個人的研究舉例,在抓取的問題上已經(jīng)取得了長足的進(jìn)步:從只能抓方塊、圓形等特定形狀的物體,到基于三維視覺傳感器,可以抓不透明、不反光的,在深度傳感器里能完美成像的物體,到最近的技術(shù)能夠預(yù)測透明、高反光金屬、吸光等非常有挑戰(zhàn)材質(zhì)的物體的深度,基于它去做泛化的抓取。宇樹現(xiàn)在已經(jīng)能把抓取做得相當(dāng)好。在此次機(jī)器人大會上,宇樹等公司的展臺上,機(jī)器人能接受觀眾給出的各種形狀、材質(zhì)、隨便堆疊的物體。宇樹的機(jī)器人展示了非常泛化和高成功率的抓取能力。
但是很多人會提問:你能幫我抓水瓶,能不能再幫我把瓶蓋給擰開?非常不好意思,現(xiàn)在泛化的開瓶蓋技能還沒有訓(xùn)練出來。但這就是大模型能夠帶給我們的機(jī)會。那么語言大模型的涌現(xiàn),也就是emergent behavior,能夠在只見一次甚至零次的演示情況下,就理解你要生成什么樣的文字。相信未來5 年,給我們的機(jī)會就是發(fā)展機(jī)器人的基礎(chǔ)大模型,能夠?qū)崿F(xiàn)涌現(xiàn)能力。它吞吐了足夠大量的數(shù)據(jù)以后,以靈巧手為例,它能夠抓、夾、擰、掰……,能夠做各種基本的手的運(yùn)動。給它看一個視頻,它就能理解這個活兒該怎么干。到那時,我們就有了一個通用的、至少是做操作任務(wù)的機(jī)器人了。
這是我認(rèn)為未來5 年的一個機(jī)會。
人機(jī)交互、硬件與電池的變遷
北京大學(xué)前沿計算研究中心助理教授、北大銀河通用具身智能聯(lián)合實驗室主任王鶴:這一輪機(jī)器人技術(shù)的進(jìn)步主要是由AI 來驅(qū)動的,體現(xiàn)在幾個方面:第一,人機(jī)交互能力得到了極大提升。記得10 年前做AI- 機(jī)器人的交互,如果要加語音、視覺,第一是成本非常高,第二,要做大量的研發(fā)的工作,需要幾個博碩帶著一個團(tuán)隊,花費(fèi)很長時間才能夠完成一些物體識別、語音合成,然后是自然語言理解、謬批,甚至是tts語音合成等方面的工作,甚至包括導(dǎo)航。
但是現(xiàn)在隨著技術(shù)的進(jìn)步,現(xiàn)在做VIA 的大模型,直接做端到端的語音給它,然后很快就可以有比較好的行為輸出,有很好的意圖理解,然后做任務(wù)規(guī)劃等。這一輪的對人機(jī)交互、對任務(wù)的規(guī)劃、執(zhí)行等方面都有巨大的提升,這在10 年前很難去想象。
第二,在硬件方面也有巨大的提升,體現(xiàn)在兩個方向:①關(guān)節(jié)性能的提升非??欤芏喙镜臋C(jī)器人可以做一些動態(tài)、劇烈的運(yùn)動,這離不開關(guān)節(jié)性能的提升——高的能量密度比、高的轉(zhuǎn)速、高的性能等技術(shù)的提升,這在10 年前是很難做到的。②這離不開運(yùn)動控制能力的提升,電機(jī)的提升。現(xiàn)在更多采用結(jié)構(gòu)設(shè)計的方式,讓布局等方面有非常大的進(jìn)步,包括把腿轉(zhuǎn)成慣量,把電機(jī)的性能往上提等各種各樣的結(jié)構(gòu)設(shè)計的技術(shù)變化。
第三,能量。10 年前我們做機(jī)器人的手段,一個電池就像我們背后要背一個非常巨大的電池包/ 能源包,而且能夠持續(xù)的時間很短。但是這幾年隨著新能源汽車對電池技術(shù)的推動,電池的能量密度大幅提升。現(xiàn)在一個較小的電池就可以支持較長時間。這是一個非常重要的技術(shù)突破。
關(guān)于未來、5 年之后,這幾個方向可能還是重大突破的方向。
第一方面,人機(jī)交互,希望大模型能提供更長程的任務(wù)規(guī)劃、做意圖的理解等方面。我們只要給它一個非常模糊的指令,它就可以輸出標(biāo)準(zhǔn)、自然的交互的結(jié)果。
第二方面,是在實施路徑的重規(guī)劃方面,一個重大、要攻克的方向是隨著環(huán)境改變,希望機(jī)器人能夠?qū)崟r改變執(zhí)行策略等。
第三方面,在能量方面是持續(xù)要提升的,現(xiàn)在的執(zhí)行效率跟人類相比還是有非常大的差距。
注1:“機(jī)器人”來自捷克語,作者將捷克語“Robota”寫成了英語“Robot”。
注2:捷克語“Robota”是奴隸的意思,被當(dāng)作“機(jī)器人”一詞的起源。該劇預(yù)告了機(jī)器人的發(fā)展對人類社會的悲劇性影響,引起了人們的廣泛關(guān)注。
(本文來源于《EEPW》202410)
評論