7 月 13 日消息,麻省理工學(xué)院(MIT)團(tuán)隊(duì)提出一種基于視覺的深度學(xué)習(xí)方法,僅需單個(gè)攝像頭即可讓軟體機(jī)器人和仿生機(jī)器人學(xué)習(xí)運(yùn)動(dòng)與控制。
該技術(shù)突破有望大幅降低機(jī)器人開發(fā)成本,相關(guān)成果已于 6 月 25 日發(fā)表于《自然》主刊(IT之家附 DOI: 10.1038/s41586-025-09170-0)。
傳統(tǒng)工業(yè)機(jī)器人雖易于建??刂?,但剛性結(jié)構(gòu)難以適應(yīng)狹小或不平坦地形。軟體及仿生機(jī)器人雖具備環(huán)境適應(yīng)優(yōu)勢,卻通常依賴大量傳感器和定制化空間模型。
現(xiàn)在,MIT 團(tuán)隊(duì)通過深度學(xué)習(xí)技術(shù)解決了這一矛盾。新系統(tǒng)僅需通過單個(gè)攝像頭捕捉機(jī)器人運(yùn)動(dòng)畫面,結(jié)合名為“神經(jīng)雅可比場(NJF)”的技術(shù),使機(jī)器人通過視覺反饋建立對自身形態(tài)與運(yùn)動(dòng)能力的認(rèn)知。
研究團(tuán)隊(duì)對多種機(jī)器人進(jìn)行了 2-3 小時(shí)多視角隨機(jī)運(yùn)動(dòng)視頻訓(xùn)練,成功讓神經(jīng)網(wǎng)絡(luò)通過單幀圖像重建機(jī)器人三維形態(tài)與運(yùn)動(dòng)范圍。
在氣動(dòng)軟體機(jī)械手、奧利格羅機(jī)械手(16 自由度)、3D 打印機(jī)械臂及低成本 Poppy 機(jī)械臂等測試中,系統(tǒng)實(shí)現(xiàn):
關(guān)節(jié)運(yùn)動(dòng)誤差小于 3 度
指尖控制誤差小于 4 毫米
可自適應(yīng)環(huán)境動(dòng)態(tài)變化
MIT 助理教授文森特?西茨曼(Vincent Sitzmann)表示:“視覺作為彈性傳感器,為農(nóng)場、工地等非結(jié)構(gòu)化環(huán)境中的機(jī)器人應(yīng)用開啟新可能?!?/p>
CSAIL 主任丹妮拉?羅斯(Daniela Rus)補(bǔ)充道:“視覺反饋使系統(tǒng)建立自身運(yùn)動(dòng)動(dòng)力學(xué)內(nèi)部模型,在傳統(tǒng)定位方法失效處實(shí)現(xiàn)自監(jiān)督操作?!?/p>