技術(shù)頻道

娓娓工業(yè)
您現(xiàn)在的位置: 中國傳動網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 機(jī)器人基于開源的多模態(tài)語言視覺大模型

機(jī)器人基于開源的多模態(tài)語言視覺大模型

時間:2024-01-22 16:39:57來源:機(jī)器之心

導(dǎo)語:?近年來,大模型的研究正在加速推進(jìn),它逐漸在各類任務(wù)上展現(xiàn)出多模態(tài)的理解和時間空間上的推理能力。

機(jī)器人的各類具身操作任務(wù)天然就對語言指令理解、場景感知和時空規(guī)劃等能力有著很高的要求,這自然引申出一個問題:能不能充分利用大模型能力,將其遷移到機(jī)器人領(lǐng)域,直接規(guī)劃底層動作序列呢?  

對此,ByteDance Research 基于開源的多模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機(jī)器人操作模型,只用單機(jī)就可以訓(xùn)練。使用簡單、少量的微調(diào)就可以把 VLM 變成 Robotics VLM,從而適用于語言交互的機(jī)器人操作任務(wù)。   OpenFlamingo 在機(jī)器人操作數(shù)據(jù)集 CALVIN 上進(jìn)行了驗證,實驗結(jié)果表明,RoboFlamingo 只利用了 1% 的帶語言標(biāo)注的數(shù)據(jù)即在一系列機(jī)器人操作任務(wù)上取得了 SOTA 的性能。隨著 RT-X 數(shù)據(jù)集開放,采用開源數(shù)據(jù)預(yù)訓(xùn)練 RoboFlamingo 并 finetune 到不同機(jī)器人平臺,將有希望成為一個簡單有效的機(jī)器人大模型 pipeline。論文還測試了各種不同 policy head、不同訓(xùn)練范式和不同 Flamingo 結(jié)構(gòu)的 VLM 在 Robotics 任務(wù)上微調(diào)的表現(xiàn),得到了一些有意思的結(jié)論。  

研究背景

基于語言的機(jī)器人操作是具身智能領(lǐng)域的一個重要應(yīng)用,它涉及到多模態(tài)數(shù)據(jù)的理解和處理,包括視覺、語言和控制等。近年來,視覺語言基礎(chǔ)模型(VLMs)已經(jīng)在多個領(lǐng)域取得了顯著的進(jìn)展,包括圖像描述、視覺問答和圖像生成等。然而,將這些模型應(yīng)用于機(jī)器人操作仍然存在一些挑戰(zhàn),例如如何將視覺和語言信息結(jié)合起來,如何處理機(jī)器人操作的時序性等。   為了解決這些問題,ByteDance Research 的機(jī)器人研究團(tuán)隊利用現(xiàn)有的開源 VLM,OpenFlamingo,設(shè)計了一套新的視覺語言操作框架,RoboFlamingo。其中 VLM 可以進(jìn)行單步視覺語言理解,而額外的 policy head 模組被用來處理歷史信息。只需要簡單的微調(diào)方法就能讓 RoboFlamingo 適應(yīng)于基于語言的機(jī)器人操作任務(wù)。   RoboFlamingo 在基于語言的機(jī)器人操作數(shù)據(jù)集 CALVIN 上進(jìn)行了驗證,實驗結(jié)果表明,RoboFlamingo 只利用了 1% 的帶語言標(biāo)注的數(shù)據(jù)即在一系列機(jī)器人操作任務(wù)上取得了 SOTA 的性能(多任務(wù)學(xué)習(xí)的 task sequence 成功率為 66%,平均任務(wù)完成數(shù)量為 4.09,基線方法為 38%,平均任務(wù)完成數(shù)量為 3.06;zero-shot 任務(wù)的成功率為 24%,平均任務(wù)完成數(shù)量為 2.48,基線方法為 1%,平均任務(wù)完成數(shù)量是 0.67),并且能夠通過開環(huán)控制實現(xiàn)實時響應(yīng),可以靈活部署在較低性能的平臺上。這些結(jié)果表明,RoboFlamingo 是一種有效的機(jī)器人操作方法,可以為未來的機(jī)器人應(yīng)用提供有用的參考。   方法

本工作利用已有的基于圖像 - 文本對的視覺語言基礎(chǔ)模型,通過訓(xùn)練端到端的方式生成機(jī)器人每一步的 relative action。模型的主要模塊包含了 vision encoder,feature fusion decoder 和 policy head 三個模塊。Vision encoder 模塊先將當(dāng)前視覺觀測輸入到 ViT 中,并通過 resampler 對 ViT 輸出的 token 進(jìn)行 down sample。Feature fusion decoder 將 text token 作為輸入,并在每個 layer 中先將 vision encoder 的 output 作為 query 進(jìn)行 cross attention,之后進(jìn)行 self attention 以完成視覺與語言特征的融合。最后,對 feature fusion decoder 進(jìn)行 max pooling 后將其送入 policy head 中,policy head 根據(jù) feature fusion decoder 輸出的當(dāng)前和歷史 token 序列直接輸出當(dāng)前的 7 DoF relative action,包括了 6-dim 的機(jī)械臂末端位姿和 1-dim 的 gripper open/close。   在訓(xùn)練過程中,RoboFlamingo 利用預(yù)訓(xùn)練的 ViT、LLM 和 Cross Attention 參數(shù),并只微調(diào) resampler、cross attention 和 policy head 的參數(shù)。   實驗結(jié)果數(shù)據(jù)集:  

CALVIN(Composing Actions from Language and Vision)是一個開源的模擬基準(zhǔn)測試,用于學(xué)習(xí)基于語言的 long-horizon 操作任務(wù)。與現(xiàn)有的視覺 - 語言任務(wù)數(shù)據(jù)集相比,CALVIN 的任務(wù)在序列長度、動作空間和語言上都更為復(fù)雜,并支持靈活地指定傳感器輸入。CALVIN 分為 ABCD 四個 split,每個 split 對應(yīng)了不同的 context 和 layout。   定量分析:  

RoboFlamingo 在各設(shè)置和指標(biāo)上的性能均為最佳,說明了其具有很強(qiáng)的模仿能力、視覺泛化能力以及語言泛化能力。Full 和 Lang 表示模型是否使用未配對的視覺數(shù)據(jù)進(jìn)行訓(xùn)練(即沒有語言配對的視覺數(shù)據(jù));Freeze-emb 指的是凍結(jié)融合解碼器的嵌入層;Enriched 表示使用 GPT-4 增強(qiáng)的指令。   消融實驗:  

不同的 policy head:   實驗考察了四種不同的策略頭部:MLP w/o hist、MLP w hist、GPT 和 LSTM。其中,MLP w/o hist 直接根據(jù)當(dāng)前觀測預(yù)測歷史,其性能最差,MLP w hist 將歷史觀測在 vision encoder 端進(jìn)行融合后預(yù)測 action,性能有所提升;GPT 和 LSTM 在 policy head 處分別顯式、隱式地維護(hù)歷史信息,其表現(xiàn)最好,說明了通過 policy head 進(jìn)行歷史信息融合的有效性。   視覺-語言預(yù)訓(xùn)練的影響:   預(yù)訓(xùn)練對于 RoboFlamingo 的性能提升起到了關(guān)鍵作用。實驗顯示,通過預(yù)先在大型視覺-語言數(shù)據(jù)集上進(jìn)行訓(xùn)練,RoboFlamingo 在機(jī)器人任務(wù)中表現(xiàn)得更好。   模型大小與性能:   雖然通常更大的模型會帶來更好的性能,但實驗結(jié)果表明,即使是較小的模型,也能在某些任務(wù)上與大型模型媲美。   指令微調(diào)的影響:   指令微調(diào)是一個強(qiáng)大的技巧,實驗結(jié)果表明,它可以進(jìn)一步提高模型的性能。

定性結(jié)果相較于基線方法,RoboFlamingo 不但完整執(zhí)行了 5 個連續(xù)的子任務(wù),且對于基線頁執(zhí)行成功的前兩個子任務(wù),RoboFlamingo 所用的步數(shù)也明顯更少。  

總結(jié)本工作為語言交互的機(jī)器人操作策略提供了一個新穎的基于現(xiàn)有開源 VLMs 的框架,使用簡單微調(diào)就能實現(xiàn)出色的效果。RoboFlamingo 為機(jī)器人技術(shù)研究者提供了一個強(qiáng)大的開源框架,能夠更容易地發(fā)揮開源 VLMs 的潛能。工作中豐富的實驗結(jié)果或許可以為機(jī)器人技術(shù)的實際應(yīng)用提供寶貴的經(jīng)驗和數(shù)據(jù),有助于未來的研究和技術(shù)發(fā)展。


標(biāo)簽: 機(jī)器人

點贊

分享到:

上一篇:ChatGPT算力芯片如何做算力輸出

下一篇:深入了解物聯(lián)網(wǎng)設(shè)備的OTA升級...

中國傳動網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(www.surachana.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

網(wǎng)站簡介|會員服務(wù)|聯(lián)系方式|幫助信息|版權(quán)信息|網(wǎng)站地圖|友情鏈接|法律支持|意見反饋|sitemap

傳動網(wǎng)-工業(yè)自動化與智能制造的全媒體“互聯(lián)網(wǎng)+”創(chuàng)新服務(wù)平臺

網(wǎng)站客服服務(wù)咨詢采購咨詢媒體合作

Chuandong.com Copyright ?2005 - 2025 ,All Rights Reserved 深圳市奧美大唐廣告有限公司 版權(quán)所有
粵ICP備 14004826號 | 營業(yè)執(zhí)照證書 | 不良信息舉報中心 | 粵公網(wǎng)安備 44030402000946號