控制算法手記:腿足運(yùn)動控制
文:李磊2025年第一期
與其他地面移動機(jī)器人不同,腿足機(jī)器人依靠腿足交替與地面接觸,腿足機(jī)器人的運(yùn)動特點(diǎn)給其運(yùn)動控制帶來了巨大挑戰(zhàn),運(yùn)動控制算法工程師必須小心規(guī)劃各個變量(步態(tài)、身體位姿、落腳點(diǎn)、交互力等),以保證機(jī)器人能夠穩(wěn)定運(yùn)動,并在非規(guī)則地形上體現(xiàn)出優(yōu)勢。
文/李磊
1 腿足機(jī)器人運(yùn)動性能要求
從實(shí)際應(yīng)用需求來看,對腿足機(jī)器人運(yùn)動控制性能的要求主要分為以下幾個方面:
(1)自然/平穩(wěn):機(jī)器人能夠平穩(wěn)、相對柔順、自然地運(yùn)動,以方便作為運(yùn)動平臺完成相關(guān)任務(wù);
(2)高效:整體運(yùn)動效率較高,在帶載工況下能夠長時間進(jìn)行工作,無局部關(guān)節(jié)過熱等問題;
(3)精確:能夠精確完成位姿調(diào)整或者軌跡跟蹤任務(wù),以方便與上層環(huán)境感知與規(guī)劃部分匹配;
(4)魯棒:在環(huán)境感知噪聲、外部干擾、地形、負(fù)載變化等工況下,維持一定的運(yùn)動控制性能;
(5)機(jī)動:能夠完成機(jī)身/腿足慣性占主導(dǎo)的運(yùn)動行為,如高速運(yùn)動、跳躍運(yùn)動等;
(6)地形自適應(yīng):能夠感知地形變化并以此調(diào)整相關(guān)運(yùn)動控制行為,如跨越階梯、攀爬高臺、鉆入桌底等;在某些復(fù)雜地形下,魯棒性和機(jī)動性是地形自適應(yīng)性的基礎(chǔ),如需要跳躍的場合;
(7)安全性/安全恢復(fù):在實(shí)際運(yùn)行中,能夠避免出現(xiàn)不安全的行為,如跌倒、碰撞等或者從失敗中順利恢復(fù);
(8)易部署/易維護(hù)/易調(diào)節(jié):能夠根據(jù)實(shí)際環(huán)境中的表現(xiàn),快速調(diào)整相關(guān)控制參數(shù)以適配不同機(jī)器/參數(shù)/產(chǎn)生一致性預(yù)期運(yùn)動行為,避免重新訓(xùn)練/編程所需要的大量準(zhǔn)備/調(diào)試時間。
實(shí)際應(yīng)用中,上述運(yùn)控性能要求并不需要同時具備,比如說在巡檢應(yīng)用中,機(jī)動性不是一個特別需要考慮的問題,反而是地形適用性/安全性/平穩(wěn)性值得關(guān)注。因此,如何根據(jù)應(yīng)用場景定義性能需求,并進(jìn)行有針對性地方案設(shè)計顯得尤為重要。無論是基于模型的方法還是深度強(qiáng)化學(xué)習(xí)方法,都應(yīng)該從應(yīng)用場景中的具體需求出發(fā),從問題定義和描述出發(fā),明確場景所需要的能力,然后根據(jù)各個控制算法解決問題的思路,結(jié)合被控系統(tǒng)的實(shí)際動力學(xué)特性,進(jìn)行組合、優(yōu)化和工程部署。腿足機(jī)器人領(lǐng)域各種開源深度強(qiáng)化學(xué)習(xí)算法/論文層出不窮,大幅降低了學(xué)習(xí)成本,然而對于工程師來說不應(yīng)該沉迷于追求SOTA算法,而是要從大系統(tǒng)的層面明確問題,化繁為簡。
2 腿足機(jī)器人動力學(xué)特性
腿足機(jī)器人通過腿足與地面的間斷接觸實(shí)現(xiàn)身體(質(zhì)心)的連續(xù)運(yùn)動,可以被視為與地面間斷接觸的多剛體動力學(xué)系統(tǒng)。為支撐腿足機(jī)器人高動態(tài)運(yùn)動,一般傾向于將腿足部分設(shè)計得盡可能地輕(腿足部分質(zhì)量一般占全部質(zhì)量的10%),使得身體姿態(tài)/質(zhì)心-落腳點(diǎn)位置/接觸力(與地面碰撞/接觸)情況成為腿足機(jī)器人動力學(xué)行為的主導(dǎo)因素。從控制系統(tǒng)的角度來看,執(zhí)行器動態(tài)/傳感器誤差以及相關(guān)通信延遲等也不可避免地對動力學(xué)行為造成了影響,尤其考慮到腿足機(jī)器人為降低成本,多采用精度一般的關(guān)節(jié)模組(12~14位磁編,0.2度左右的齒輪回程間隙)、傳動模塊(帶傳動、連桿傳動)、傳感器以及嵌入式通信系統(tǒng)(串口通訊),在控制誤差、延遲以及傳感器噪聲等方面對整體動力學(xué)造成了不可避免的影響;從實(shí)際應(yīng)用上來看,腿足機(jī)器人雖然可以簡化為單剛體系統(tǒng),但考慮到加工裝配質(zhì)量與應(yīng)用環(huán)境的復(fù)雜性,地形接觸特性和實(shí)際機(jī)器人重心位置、質(zhì)量分布、關(guān)節(jié)模組摩擦力等因素也成為不可忽略的因素。
因此,無論采用DRL還是基于模型進(jìn)行運(yùn)動控制算法設(shè)計,必須要考慮三方面的因素:
l 多剛體動力學(xué)系統(tǒng)及其與地面的接觸碰撞;
l 實(shí)際機(jī)電系統(tǒng)的非理想因素(傳動系統(tǒng)動態(tài)、關(guān)節(jié)控制帶寬等);
l 元器件、加工、裝配的非理想因素(質(zhì)量分布、關(guān)節(jié)限位、零點(diǎn)初始位等)以及應(yīng)用環(huán)境復(fù)雜性(負(fù)載變化、接觸/地形不確定性、機(jī)身干擾等);
腿足機(jī)器人實(shí)際上高階、非線性、混合/切換(由間斷接觸導(dǎo)致)、欠驅(qū)動(涉及騰空相)的動力學(xué)特性,使得腿足機(jī)器人可以呈現(xiàn)各種復(fù)雜的動力學(xué)行為,關(guān)于其穩(wěn)定性分析和設(shè)計理論尚付之闕如。好在腿足機(jī)器人的仿生對象的運(yùn)動形態(tài)為其提供了充分的參考依據(jù),人們期待腿足機(jī)器人在各種地形上能夠像其仿生對象那樣運(yùn)動,具有各種步態(tài)(周期性穩(wěn)態(tài)運(yùn)動模式)以及全身協(xié)同運(yùn)動行為,并且兼具高效、機(jī)動等特點(diǎn)。
3 理解腿足運(yùn)動控制的深度強(qiáng)化學(xué)習(xí)范式
深度強(qiáng)化學(xué)習(xí)作為一種數(shù)據(jù)驅(qū)動控制方法,在魯棒、機(jī)動、地形自適應(yīng)性方面體現(xiàn)出了巨大優(yōu)勢,已經(jīng)成為提足運(yùn)動控制的主流方法。當(dāng)前,腿足運(yùn)控領(lǐng)域的深度強(qiáng)化學(xué)習(xí)控制多采用一種Model-Free, Sim2Real的范式,這種范式結(jié)合強(qiáng)化學(xué)習(xí)求解最優(yōu)策略的思路,具備以下特點(diǎn):
l 這種Sim2Real的深度強(qiáng)化學(xué)習(xí)在仿真訓(xùn)練完成部署到實(shí)際中,已經(jīng)不具備學(xué)習(xí)能力,學(xué)習(xí)的過程是在仿真環(huán)境中通過大量仿真交互數(shù)據(jù)訓(xùn)練完成的,訓(xùn)練完成的策略網(wǎng)絡(luò)擬合了狀態(tài)/觀察序列到動作輸出的映射,實(shí)際運(yùn)行中的觀察/狀態(tài)通過深度網(wǎng)絡(luò)提取特征,通過上述映射輸出動作。如果出現(xiàn)了遠(yuǎn)超分布外的狀態(tài),則會出現(xiàn)映射失敗的問題,其出現(xiàn)的自適應(yīng)行為仍是利用了神經(jīng)網(wǎng)絡(luò)的自動特征提取和關(guān)聯(lián)能力,以仿真交互數(shù)據(jù)分布為前提的自適應(yīng)性,這里不應(yīng)該將由于海量多樣仿真數(shù)據(jù)帶來的廣域分布性與自適應(yīng)性混淆;
l Model-Free的方式并不是說不需要模型,而是說策略網(wǎng)絡(luò)的訓(xùn)練生成過程中,并不需要顯式利用模型的參數(shù)/數(shù)據(jù)。策略生成盡管不直接依賴模型,但在仿真環(huán)境中產(chǎn)生的大量交互數(shù)據(jù)仍然需要模型用以計算能夠描述腿足機(jī)器人實(shí)際動力學(xué)特性(見上節(jié))的數(shù)據(jù)。實(shí)際上,為提升Sim2Real的成功率,需要仿真交互數(shù)據(jù)分布與實(shí)際交互數(shù)據(jù)分布盡可能一致,這就需要在仿真環(huán)境中盡可能精確進(jìn)行建模(如考慮傳動特性、傳感器噪聲、接觸碰撞行為等)。盡管存在著參數(shù)隨機(jī)化等策略降低了對精確模型的需求,但過于寬泛的參數(shù)范圍,無疑會使策略過于保守,使得實(shí)際部署時出現(xiàn)保守行為(如使用過高的步頻,過大的接觸力等)。
從控制系統(tǒng)的角度進(jìn)行理解,這種范式下的訓(xùn)練得到的策略網(wǎng)絡(luò)本質(zhì)上是一種利用海量離線數(shù)據(jù)學(xué)習(xí)到的“靜態(tài)”“非線性”“最優(yōu)”“狀態(tài)反饋”控制率,其中:
l 靜態(tài)主要是指系統(tǒng)無真正動態(tài)自適應(yīng)性能力,只是進(jìn)行了內(nèi)插擬合;
l 非線性則指在獎勵函數(shù)引導(dǎo)下建立的狀態(tài)特征-動作非線性映射能力;
l 最優(yōu)則指強(qiáng)化學(xué)習(xí)求解最優(yōu)策略(最大化獎勵函數(shù)的策略)的特性,當(dāng)前深度強(qiáng)化學(xué)習(xí)進(jìn)行腿足運(yùn)動控制大多基于策略梯度Actor-Critic架構(gòu)以及PPO優(yōu)化算法,其求解最優(yōu)策略的思路是在價值函數(shù)(優(yōu)勢函數(shù))的輔導(dǎo)下,通過策略迭代增加較好的動作出現(xiàn)的概率,直至最好動作出現(xiàn)的概率最大。與MPC不同的是,通過神經(jīng)網(wǎng)絡(luò)離線擬合的是狀態(tài)價值函數(shù),能夠考慮更長期的時間效應(yīng)(取決于Episode長度),從而降低了MPC預(yù)測窗口增大時帶來的運(yùn)算量急劇增加的問題;另一方面,深度強(qiáng)化學(xué)習(xí)通過軟約束的形式,將復(fù)雜的約束項(xiàng)轉(zhuǎn)化為負(fù)獎勵項(xiàng),同時避免非線性規(guī)劃中導(dǎo)數(shù)求解的問題;
l “狀態(tài)”反饋是指策略網(wǎng)絡(luò)仍是根據(jù)當(dāng)前狀態(tài)/觀察決定動作,外界干擾帶來的動態(tài)行為導(dǎo)致狀態(tài)/觀察發(fā)生了變化才進(jìn)行調(diào)節(jié),調(diào)節(jié)的方向仍為最大化獎勵函數(shù),因此深度強(qiáng)化學(xué)習(xí)可以視作一種狀態(tài)反饋控制。當(dāng)然,傳統(tǒng)控制視角下存在的全狀態(tài)反饋、狀態(tài)估計觀測反饋在強(qiáng)化學(xué)習(xí)中仍然存在,對應(yīng)著馬爾科夫決策過程、部分可觀測馬爾科夫決策過程等框架,如何從部分可觀測過程中重構(gòu)狀態(tài)也是值得研究的問題(如使用信念狀態(tài)網(wǎng)絡(luò)、使用歷史信息輸入等)。
值得注意的是,深度強(qiáng)化學(xué)習(xí)具有端到端的優(yōu)勢,即省去了狀態(tài)估計、跟蹤控制和規(guī)劃等模塊,直接可以根據(jù)狀態(tài)/觀察量,決定動作輸出。如在傳統(tǒng)控制視角下,為進(jìn)行速度跟蹤控制,需要能夠準(zhǔn)確及時估計機(jī)身當(dāng)前速度,進(jìn)行反饋控制,這是需要設(shè)計機(jī)身狀態(tài)估計器和接觸估計,狀態(tài)估計器的可靠性決定了反饋信號的可靠性,從而影響了控制效果;深度強(qiáng)化學(xué)習(xí)可以不依賴機(jī)身位姿估計,直接通過一個策略網(wǎng)略接受(機(jī)身加速度、關(guān)節(jié)速度/位置/電流、接觸狀態(tài)等)等決定動作,在策略網(wǎng)絡(luò)內(nèi)部隱式地估計狀態(tài)以建立決策相關(guān)性。深度強(qiáng)化學(xué)習(xí)不依賴狀態(tài)估計模塊的這種特性并不意味著實(shí)際應(yīng)用過程中不需要狀態(tài)估計,相關(guān)研究表明,腿足機(jī)器人深度強(qiáng)化學(xué)習(xí)框架中,最重要的狀態(tài)量即為機(jī)身速度,其反饋越直接,在策略和獎勵函數(shù)中的作用也越直接,整體運(yùn)控性能越好,在相關(guān)框架中(如DreamWaQ-封面圖片、PIE)引入顯式的狀態(tài)估計模塊也相應(yīng)了提升了性能。
因此,不應(yīng)該盲目迷信端到端的技術(shù)概念,實(shí)際中還是應(yīng)該考慮應(yīng)用場景、策略訓(xùn)練難度、部署成本、性能表現(xiàn)等因素綜合考慮。
4 總結(jié)
本文從腿足機(jī)器人運(yùn)控性能要求、實(shí)際動力學(xué)特性以及如何從控制視角理解目前較為流行的深度強(qiáng)化學(xué)習(xí)范式進(jìn)行了分析介紹。回到筆者一直以來的觀點(diǎn),對于控制算法的設(shè)計,首先還是應(yīng)該回到場景需要中,回到實(shí)際控制系統(tǒng)動力學(xué)特性分析上,回到不同控制算法解決問題的思路中去,而不是所謂SOTA算法。本文章建立的分析框架,將為后續(xù)系列介紹文章建立分析框架,請持續(xù)關(guān)注。
中傳動網(wǎng)版權(quán)與免責(zé)聲明:
凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(www.surachana.com)獨(dú)家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。
如涉及作品內(nèi)容、版權(quán)等問題,請?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運(yùn)動控制公眾號獲取更多資訊

關(guān)注直驅(qū)與傳動公眾號獲取更多資訊

關(guān)注中國傳動網(wǎng)公眾號獲取更多資訊

掃碼關(guān)注小程序
時刻關(guān)注行業(yè)動態(tài)

- 1新年寄語

填寫郵件地址,訂閱更多資訊:
撥打電話咨詢:13751143319 余女士
郵箱:chuandong@chuandong.cn
- 運(yùn)動控制
- 伺服系統(tǒng)
- 機(jī)器視覺
- 機(jī)械傳動
- 編碼器
- 直驅(qū)系統(tǒng)
- 工業(yè)電源
- 電力電子
- 工業(yè)互聯(lián)
- 高壓變頻器
- 中低壓變頻器
- 傳感器
- 人機(jī)界面
- PLC
- 電氣聯(lián)接
- 工業(yè)機(jī)器人
- 低壓電器
- 機(jī)柜