-
题名仿驾驶员DDPG汽车纵向自动驾驶决策方法
被引量:11
- 1
-
-
作者
高振海
闫相同
高菲
孙天骏
-
机构
吉林大学
-
出处
《汽车工程》
EI
CSCD
北大核心
2021年第12期1737-1744,共8页
-
基金
国家重点研发计划(2017YFB0102601)
国家自然科学基金(51775236,U1564214)
纵侧向运动控制软件开发国内技术采购项目(3R2210469415)资助。
-
文摘
汽车纵向自动驾驶的决策层根据车辆当前运动状态与环境信息,决策出理想的动作指令。目前如何在自动驾驶决策策略中考虑人类驾驶员的行为成为研究热点。在纵向自动驾驶决策策略中传统的基于规则的决策策略难以运用到复杂的场景中,而当前使用强化学习和深度强化学习的决策方法大多通过设计安全性、舒适性、经济性相关公式构建奖励函数,得到的决策策略与人类驾驶员相比仍然存在较大差距。针对以上问题,本文使用驾驶员数据通过BP神经网络拟合设计奖励函数,使用深度强化学习DDPG算法,建立了一种仿驾驶员的纵向自动驾驶决策方法。最终通过仿真测试验证了该方法的有效性和与驾驶员行为的一致性。
-
关键词
自动驾驶
决策算法
深度强化学习
深度确定性策略梯度
-
Keywords
autonomous driving
decision-making algorithm
deep reinforcement learning
deep deterministic policy gradient(DDPG)
-
分类号
U463.6
[机械工程—车辆工程]
-
-
题名基于逆向强化学习的纵向自动驾驶决策方法
被引量:7
- 2
-
-
作者
高振海
闫相同
高菲
-
机构
吉林大学
-
出处
《汽车工程》
EI
CSCD
北大核心
2022年第7期969-975,共7页
-
基金
国家重点研发计划项目(2017YFB0102601)
国家自然科学基金(51775236,U1564214)资助。
-
文摘
基于人类驾驶员数据获得自动驾驶决策策略是当前自动驾驶技术研究的热点。经典的强化学习决策方法大多通过设计安全性、舒适性、经济性相关公式人为构建奖励函数,决策策略与人类驾驶员相比仍然存在较大差距。本文中使用最大边际逆向强化学习算法,将驾驶员驾驶数据作为专家演示数据,建立相应的奖励函数,并实现仿驾驶员的纵向自动驾驶决策。仿真测试结果表明:相比于强化学习方法,逆向强化学习方法的奖励函数从驾驶员的数据中自动化的提取,降低了奖励函数的建立难度,得到的决策策略与驾驶员的行为具有更高的一致性。
-
关键词
自动驾驶
决策算法
强化学习
逆向强化学习
-
Keywords
autonomous driving
decision-making algorithm
reinforcement learning
inverse reinforcement learning(IRL)
-
分类号
U463.6
[机械工程—车辆工程]
-