期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于SAC的自动驾驶车辆控制方法应用 被引量:2
1
作者 宁强 刘元盛 谢龙洋 《计算机工程与应用》 CSCD 北大核心 2023年第8期306-314,共9页
为了改善SAC(soft actor critic)算法样本等概率采样以及网络随机初始化造成网络收敛速度慢、训练过程不稳定问题,提出一种结合优先级回放和专家数据的改进算法PE-SAC(priority playback soft actor critic with expert)。该算法依据样... 为了改善SAC(soft actor critic)算法样本等概率采样以及网络随机初始化造成网络收敛速度慢、训练过程不稳定问题,提出一种结合优先级回放和专家数据的改进算法PE-SAC(priority playback soft actor critic with expert)。该算法依据样本价值将样本池分类,使用专家数据预训练网络,缩小无人车无效探索空间、降低试错次数,有效提升算法学习效率。同时设计一种面向多障碍物的奖励函数增强算法适用性。在CARLA平台进行仿真实验,结果表明所提出方法可以更好地控制无人车在环境中安全行驶,同等训练次数下所得奖励值和收敛速度优于TD3(twin delayed deep deterministic policy gradient algorithm)和SAC算法。最后,结合雷达点云地图与PID(proportional integral derivative)控制方法缩小仿真环境与真实场景差异性,将训练所得模型移植到园区低速无人车中验证算法泛用性。 展开更多
关键词 深度强化学习 无人驾驶控制 现实场景
下载PDF
改进深度Q网络的无人车换道决策算法研究 被引量:1
2
作者 张鑫辰 张军 +2 位作者 刘元盛 路铭 谢龙洋 《计算机工程与应用》 CSCD 北大核心 2022年第7期266-275,共10页
深度Q网络(deep Q network,DQN)模型已被广泛应用于高速公路场景中无人车换道决策,但传统的DQN存在过估计且收敛速度较慢的问题。针对此问题提出了基于改进深度Q网络的无人车换道决策模型。将得到的状态值分别输入到两个结构相同而参数... 深度Q网络(deep Q network,DQN)模型已被广泛应用于高速公路场景中无人车换道决策,但传统的DQN存在过估计且收敛速度较慢的问题。针对此问题提出了基于改进深度Q网络的无人车换道决策模型。将得到的状态值分别输入到两个结构相同而参数更新频率不同的神经网络中,以此来减少经验样本之间的相关性,然后将隐藏层输出的无人车状态信息同时输入到状态价值函数(state value function)流和动作优势函数(action advantage function)流中,从而更准确地得到模型中每个动作对应的Q值,再采用优先级经验回放(prioritized experience replay,PER)的方式从经验回放单元中抽取经验样本,增加经验回放单元中重要样本的利用率。在NGSIM数据集搭建的实验场景中进行模型的训练和测试,实验结果表明,改进的深度Q网络模型可以使无人车更好地理解环境中的状态变化,提高了换道决策成功率的同时网络的收敛速度也得到提升。 展开更多
关键词 无人车 换道决策 状态价值函数 动作优势函数 优先级经验回放
下载PDF
基于Dueling DDQN的无人车换道决策模型 被引量:3
3
作者 张鑫辰 张军 +1 位作者 刘元盛 谢龙洋 《东北师大学报(自然科学版)》 CAS 北大核心 2022年第1期63-71,共9页
针对高速公路场景中无人驾驶车的换道决策问题,提出一种基于竞争结构的双深度Q网络(DDQN)的无人车换道决策模型.在深度Q网络的基础上,将无人车动作的选择和评估分别用不同的神经网络来实现,并将Q网络分为仅与状态S相关的价值函数和同时... 针对高速公路场景中无人驾驶车的换道决策问题,提出一种基于竞争结构的双深度Q网络(DDQN)的无人车换道决策模型.在深度Q网络的基础上,将无人车动作的选择和评估分别用不同的神经网络来实现,并将Q网络分为仅与状态S相关的价值函数和同时与状态S和动作A相关的优势函数两部分,使得Dueling DDQN模型可以更好地理解外部的状态环境.使用训练模型在不同复杂程度的道路环境中进行测试,同时与DQN和DDQN进行了实验对比.结果表明,该算法提高了无人车换道决策的成功率,并在保证车辆安全的前提下提高了无人车的行驶效率,在复杂的道路场景下的适用性更强. 展开更多
关键词 无人车 换道决策 双深度Q网络
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部