久草国产视频,久久久精品人妻一区二区三区蜜桃,亚洲精品无码无需播放器

控制算法手記——腿足運動控制（4）

文：文/李磊2025年第二期

摘要 : 考慮到強化學習帶來的驚艷運控效果、靈活調整的訓練框架和策略網(wǎng)絡結構、以及仿真-訓練-部署工具鏈的成熟，對于腿足機器人的運控是否可以All in DRL深度強化學習？基于模型的運動控制是否還有深入研究的必要呢？這些問題已經(jīng)盤亙在筆者頭腦里多時，為此本文希望從現(xiàn)有強化學習范式下的訓練部署框架分析，給出自己的思考和見解，以做拋磚引玉之論。

文/李磊

在前文中，重點分析了腿足機器人的運動特點，以及對腿足機器人運動控制性能的具體需求，從控制系統(tǒng)的角度進行理解，這種范式下的訓練，得到的策略網(wǎng)絡本質上是一種利用海量離線數(shù)據(jù)學習到的“靜態(tài)”、“非線性”、 “最優(yōu)”、“狀態(tài)反饋”控制率，考慮到強化學習帶來的驚艷運控效果、靈活調整的訓練框架和策略網(wǎng)絡結構、以及仿真-訓練-部署工具鏈的成熟，對于腿足機器人的運控是否可以All in DRL（即：深度強化學習Deep Reinforcement Learning，DRL）？基于模型的運動控制是否還有深入研究的必要呢？
注：近年來，隨著相關算法、仿真平臺、訓練框架、硬件和工具鏈的成熟，深度強化學習DRL（Deep Reinforcement learning）控制方法在無人機、腿足機器人（四足、雙足、人形等）、自動駕駛等機器人運動控制領域展露頭角，取得了令人印象深刻的控制效果，體現(xiàn)出了優(yōu)越的魯棒性和泛化能力。對于這些典型的欠驅動系統(tǒng) （Underactuated System），強化學習端到端（End-to- End）的控制方案正在取代基于模型的控制中（規(guī)劃-跟蹤控制-狀態(tài)估計）分層、模塊化控制方案，成為學術界和工業(yè) 界追逐的潮流。
1 當前學習范式下運控性能特點
當前學習范式訓練得到的策略實際部署在機器人上時相當于采用了一張巨大的查詢表格，只需少量的推理運算計算量（查找表格）輸出控制值，其控制頻率可輕易達 50~100Hz，這比涉及到復雜非線性約束優(yōu)化的MPC優(yōu)秀得多。加上，相關工具鏈的成熟和開源方案，大幅降低了應用 “門檻”，得到的靜態(tài)非線性最優(yōu)狀態(tài)反饋控制率，使得采用強化學習進行腿足機器人運動控制體現(xiàn)出以下性能特點：
（1）復雜手動獎勵工程，預期行為生成難
當前學習范式的訓練過程只是在無"意識"地通過策略迭代的方式最大化累積回報，策略收斂時，僅僅表明智能體利用特定策略梯度算法取得了當前仿真交互數(shù)據(jù)集意義下的最優(yōu)，并不對應著物理世界下的預期行為。腿足機器人可能會學到快速拖地行走的"偷懶"行為，盡管這種行為對應著預設獎勵函數(shù)意義下的最優(yōu)，但并沒有體現(xiàn)出特定步態(tài)、步態(tài)頻率、正常抬腿-擺動-落地等類似于其仿生對象自然/柔順的行為；仿真交互數(shù)據(jù)受到初始狀態(tài)分布（如腿足機器人的初始構型狀態(tài)）/探索-利用平衡影響，導致其離預期行為數(shù)據(jù)偏離較遠。
為生成預期行為，人們在任務獎勵函數(shù)項時通常會加入各類諸如抬腿高度要合適、機身姿態(tài)要平穩(wěn)、關節(jié)力矩/ 速度/轉動范圍不能超出限制、關節(jié)動作不要太劇烈、能量盡可能的小等，獎勵項往往會達到數(shù)十項之多，一些獎勵項還相互矛盾。如何手動調節(jié)這些項的權重，以達到各項獎勵項之間的平衡，最終生成給定的預期行為實在是一項繁雜的工作，一般稱作獎勵工程。對于不同的大小/重量/構型的機器人，實現(xiàn)這些獎勵項的難易程度不同，所需要的權重大小也不同，對于不同類型的機器人，需要重新進行一遍獎勵工程，重新進行訓練以生成類似的行為。
盡管獎勵工程能夠使得當前學習范式訓練收斂時生產相對合理的行為，但如何引導、調控這種行為（如不同步態(tài)/頻率、不同行為）仍然是一個問題。當前學習范式訓練完成-學習完成的特性使得必須在仿真訓練過程中，將這種預期行為（不同步態(tài)、爬樓梯等）編碼進指令里，作為 Reference，然后在訓練過程中遍歷相關行為指令，實際運行時需要手動切換這些指令，以使得機器人產生對應的動作。這種手動指令切換產生不同運動模式的方式是目前主流方法，包括一些看似炸裂的市場宣傳視頻，當前學習范式并沒有達到人們期望的自主，仍需要在仿真交互數(shù)據(jù)中編碼-遍歷-手動切換/上層訓練一個策略進行切換。在不同地形、不同速度下的運動行為形態(tài)自主切換還依賴于對相關機制的研究，如能量、步態(tài)穩(wěn)定性理論等，然后將相關機制嵌入到獎勵函數(shù)中去，對控制對象本身動力學特性的理解仍然起著基礎作用。
為了腿足機器人能夠生產類似于物理世界人們預期的行為，需要在訓練框架/過程中引入更多相關的數(shù)據(jù)，包括: 使用動捕系統(tǒng)獲得的仿生對象真實數(shù)據(jù)；使用基于模型的運控算法規(guī)劃生產的數(shù)據(jù)；對相關物理量施加真實（硬）約束等，即使用約束強化學習或者類似約束強化學習等方法，生成更符合真實物理行為的數(shù)據(jù)；使用任務空間動作指令（如抬腿高度、步態(tài)頻率等）等動作空間參數(shù)訓練生成策略等。隨著預期動作要求越來越高，訓練框架/策略網(wǎng)絡結構將會融合以上各個設計元素。
（2）受到擾動時的高剛度行為：無意識地在任何時候最大化獎勵函數(shù)
Our key insight is stiff responses to perturbations are due to an agent's incentive to maximize task rewards at all times, even as perturbations are being applied.
- Deep complaint control, ICRA
（3）小范圍內的魯棒性
盡管人們可以利用參數(shù)隨機化（Domain Randomization）等訓練技巧，使得策略不過分保守的前提下，獲得參數(shù)在小范圍變化時的魯棒策略（如質量在正負2kg內變化），然而這種所謂的魯棒性/自適應性是有限的，以不顯著改變狀態(tài) 轉移特性為上限（如質量變化與機身質量相近），如果超過這一上限，強化學習本身沒有單獨的機制處理這一點（如估計-補償機制或者參數(shù)辨識-自適應機制）。
（4）無前饋機制
當前學習范式得到的策略屬于狀態(tài)反饋控制策略，即當外界干擾引起的變化導致狀態(tài)發(fā)生改變時（不能改變過大），才會影響到策略輸出，對于能夠估計/觀測到的干擾，沒有前饋機制。
（5）無安全機制
將任務獎勵同約束處理一同引入到獎勵函數(shù)，不僅使得獎勵函數(shù)項增多（可達數(shù)十項），而且無法保證在任何情況下得到的策略都能滿足這些約束（因為策略是最大化所有獎勵項的和），策略可能會生成不安全的行為。

2 結論
通過上述分析，回到最開始的問題，盡管DRL深度強化學習具有著巨大的應用潛力，然而當前學習范式的原理和性能特點，決定了在應用時仍然需要根據(jù)性能要求和場景進行有針對性的開發(fā)，選擇合適的訓練框架和策略結構。當前學習范式的DRL只是提供了一種解決問題的思路，這種思路解決問題的原理仍然存在一定的局限性（見上述分析），對于實際應用來說，了解這種思路的局限性和性能邊界，選擇合適的技術方案，并結合基于模型的控制方法相關思路進行完善，是一種應該采取的態(tài)度。（待續(xù)）

腿足機器人

中傳動網(wǎng)版權與免責聲明：

凡本網(wǎng)注明[來源：中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件，版權均為中國傳動網(wǎng)(www.surachana.com)獨家所有。如需轉載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉載使用時須注明來源“中國傳動網(wǎng)”，違反者本網(wǎng)將追究其法律責任。

本網(wǎng)轉載并注明其他來源的稿件，均來自互聯(lián)網(wǎng)或業(yè)內投稿人士，版權屬于原版權人。轉載請保留稿件來源及作者，禁止擅自篡改，違者自負版權法律責任。

如涉及作品內容、版權等問題，請在作品發(fā)表之日起一周內與本網(wǎng)聯(lián)系，否則視為放棄相關權利。