融合類人駕駛行為的 無人駕駛深度強化學習方法

文:呂 迪 1,2,3 徐 坤 1,2 李慧云 1,2 潘仲鳴 1,22020年第五期

現(xiàn)有無人車輛的駕駛策略過于依賴感知 - 控制映射過程的“正確性”,而忽視了人類駕駛汽車 時所遵循的駕駛邏輯。該研究基于深度確定性策略梯度算法,提出了一種具備類人駕駛行為的端到端 無人駕駛控制策略。通過施加規(guī)則約束對智能體連續(xù)行為的影響,建立了能夠輸出符合類人駕駛連續(xù) 有序行為的類人駕駛端到端控制網(wǎng)絡,對策略輸出采用了后驗反饋方式,降低了控制策略的危險行為 輸出率。針對訓練過程中出現(xiàn)的稀疏災難性事件,提出了一種更符合控制策略優(yōu)化期望的連續(xù)獎勵函 數(shù),提高了算法訓練的穩(wěn)定性。不同仿真環(huán)境下的實驗結(jié)果表明,改進后的獎勵塑造方式在評價稀疏 災難性事件時,對目標函數(shù)優(yōu)化期望的近似程度提高了85.57%,訓練效率比傳統(tǒng)深度確定性策略梯度算法提高了 21%,任務成功率提高了 19%,任務執(zhí)行效率提高了 15.45%,驗證了該方法在控制效率和平順性方面具備明顯優(yōu)勢,顯著減少了碰撞事故。

1.png

2.png

3.png

4.png

5.png

6.png

7.png

8.png

9.png

10.png

11.png

12.png

13.png

14.png

15.png

16.png

17.png

18.png

19.png

20.png

21.png

22.png

23.png

24.png

25.png

26.png

27.png

28.png

29.png

30.png

31.png


中傳動網(wǎng)版權與免責聲明:

凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(wǎng)(www.surachana.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權屬于原版權人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。

如涉及作品內(nèi)容、版權等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關權利。

伺服與運動控制

關注伺服與運動控制公眾號獲取更多資訊

直驅(qū)與傳動

關注直驅(qū)與傳動公眾號獲取更多資訊

中國傳動網(wǎng)

關注中國傳動網(wǎng)公眾號獲取更多資訊

2020年第五期

2020年第五期

圖片閱讀

掃碼關注小程序

時刻關注行業(yè)動態(tài)

雜志訂閱

填寫郵件地址,訂閱更多資訊:

撥打電話咨詢:13751143319 余女士
郵箱:chuandong@chuandong.cn

熱搜詞
  • 運動控制
  • 伺服系統(tǒng)
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0
往期雜志
  • 2025年 第1期

    2025年 第1期

    伺服與運動控制

    2025年 第1期

  • 2024年第1期

    2024年第1期

    伺服與運動控制

    2024年第1期

  • 2023年第4期

    2023年第4期

    伺服與運動控制

    2023年第4期

  • 2023年第3期

    2023年第3期

    伺服與運動控制

    2023年第3期

  • 2023年第2期

    2023年第2期

    伺服與運動控制

    2023年第2期