融合類人駕駛行為的 無人駕駛深度強化學習方法
文:呂 迪 1,2,3 徐 坤 1,2 李慧云 1,2 潘仲鳴 1,22020年第五期
現(xiàn)有無人車輛的駕駛策略過于依賴感知 - 控制映射過程的“正確性”,而忽視了人類駕駛汽車 時所遵循的駕駛邏輯。該研究基于深度確定性策略梯度算法,提出了一種具備類人駕駛行為的端到端 無人駕駛控制策略。通過施加規(guī)則約束對智能體連續(xù)行為的影響,建立了能夠輸出符合類人駕駛連續(xù) 有序行為的類人駕駛端到端控制網(wǎng)絡,對策略輸出采用了后驗反饋方式,降低了控制策略的危險行為 輸出率。針對訓練過程中出現(xiàn)的稀疏災難性事件,提出了一種更符合控制策略優(yōu)化期望的連續(xù)獎勵函 數(shù),提高了算法訓練的穩(wěn)定性。不同仿真環(huán)境下的實驗結(jié)果表明,改進后的獎勵塑造方式在評價稀疏 災難性事件時,對目標函數(shù)優(yōu)化期望的近似程度提高了85.57%,訓練效率比傳統(tǒng)深度確定性策略梯度算法提高了 21%,任務成功率提高了 19%,任務執(zhí)行效率提高了 15.45%,驗證了該方法在控制效率和平順性方面具備明顯優(yōu)勢,顯著減少了碰撞事故。
中傳動網(wǎng)版權與免責聲明:
凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(wǎng)(www.surachana.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責任。
本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權屬于原版權人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。
如涉及作品內(nèi)容、版權等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關權利。

關注伺服與運動控制公眾號獲取更多資訊

關注直驅(qū)與傳動公眾號獲取更多資訊

關注中國傳動網(wǎng)公眾號獲取更多資訊
- 運動控制
- 伺服系統(tǒng)
- 機器視覺
- 機械傳動
- 編碼器
- 直驅(qū)系統(tǒng)
- 工業(yè)電源
- 電力電子
- 工業(yè)互聯(lián)
- 高壓變頻器
- 中低壓變頻器
- 傳感器
- 人機界面
- PLC
- 電氣聯(lián)接
- 工業(yè)機器人
- 低壓電器
- 機柜