【中國傳動(dòng)網(wǎng) 行業(yè)動(dòng)態(tài)】 據(jù)外媒報(bào)道,來自Nvidia的研究人員已經(jīng)攻克了一段時(shí)間來應(yīng)對這一挑戰(zhàn),但是訓(xùn)練這些算法仍然很困難。本周在蘇黎世的機(jī)器人學(xué)習(xí)會議上,一支由Nvidia研究人員組成的研究小組展示了一種可以提供解決方案的新型深度學(xué)習(xí)系統(tǒng)。
通過使用合成圖像訓(xùn)練計(jì)算機(jī)視覺算法,該團(tuán)隊(duì)設(shè)法繞過了復(fù)雜的,勞動(dòng)量密集的準(zhǔn)備攝影圖像訓(xùn)練的過程。最重要的是,通過特定的合成圖像組合,Nvidia團(tuán)隊(duì)已經(jīng)訓(xùn)練了一種算法,通過在標(biāo)準(zhǔn)基準(zhǔn)的若干對象上進(jìn)行對象姿態(tài)估計(jì),第一次僅用合成數(shù)據(jù)訓(xùn)練的算法擊敗了在網(wǎng)絡(luò)上對真實(shí)圖像進(jìn)行訓(xùn)練。這將使機(jī)器人的訓(xùn)練算法更容易。
Nvidia的首席機(jī)器人研究員StanBirchfield向ZDNet解釋說:“使用合成數(shù)據(jù),我們可以生成幾乎無限量的標(biāo)簽,而且基本上是免費(fèi)的。”
“最終,我們要做的就是讓一個(gè)人在短時(shí)間內(nèi)教會一個(gè)機(jī)器人完成一項(xiàng)新任務(wù),”Birchfield說。這將擴(kuò)大機(jī)器人在各種環(huán)境中幫助人們的可能性,包括工廠,家庭或醫(yī)療保健機(jī)構(gòu)。
計(jì)算機(jī)視覺研究的困難和復(fù)雜性,決定了在這個(gè)領(lǐng)域還需要做更多的工作。雖然研究人員在這一領(lǐng)域取得了重大進(jìn)展,但他們還需針對固定數(shù)據(jù)集測試他們的算法?!岸@種方法并不能100%轉(zhuǎn)化為現(xiàn)實(shí)世界環(huán)境和機(jī)器人系統(tǒng)所需計(jì)算數(shù)據(jù),”Birchfield說,“我們向人們展示了一個(gè)系統(tǒng),不僅可以在特定數(shù)據(jù)集上展示出良好的定量結(jié)果,而且還可以在機(jī)器人系統(tǒng)的環(huán)境中運(yùn)行?!?/p>
Nvidia團(tuán)隊(duì)會將標(biāo)準(zhǔn)RGB攝像機(jī)安裝到機(jī)器人上,并通過該算法使機(jī)器人能夠查看,拾取和移動(dòng)圖像。
研究人員使用NvidiaTeslaV100GPU在DGX站上訓(xùn)練網(wǎng)絡(luò),使用cuDNN加速的深度PyTorch。他們使用Nvidia開發(fā)的自定義插件為虛幻引擎生成合成數(shù)據(jù)。
過去,合成數(shù)據(jù)不足以用于訓(xùn)練計(jì)算機(jī)視覺算法,因?yàn)橛?jì)算機(jī)生成的圖像看起來并不真實(shí)。
“直到最近,大約一年左右,可以嘗試制作看起來越來越逼真的圖像,”Birchfield解釋道。“研究人員發(fā)現(xiàn)的問題是,為了使圖像更逼真,他們不得不雇用藝術(shù)家,并且不得不花費(fèi)大量時(shí)間來制作場景,使其看起來與現(xiàn)實(shí)世界完全一樣。這減少了變化的數(shù)量。你可以模擬一個(gè)特定的房間,但不能包含所有房間。