期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于二阶价值梯度模型强化学习的工业过程控制方法
1
作者 张博 潘福成 +1 位作者 周晓锋 李帅 《计算机应用研究》 CSCD 北大核心 2024年第8期2434-2440,共7页
为了实现对高延时、非线性和强耦合的复杂工业过程稳定准确的连续控制,提出了一种基于二阶价值梯度模型强化学习的控制方法。首先,该方法在模型训练过程中加入了状态价值函数的二阶梯度信息,具备更精确的函数逼近能力和更高的鲁棒性,学... 为了实现对高延时、非线性和强耦合的复杂工业过程稳定准确的连续控制,提出了一种基于二阶价值梯度模型强化学习的控制方法。首先,该方法在模型训练过程中加入了状态价值函数的二阶梯度信息,具备更精确的函数逼近能力和更高的鲁棒性,学习迭代效率更高;其次,通过采用新的状态采样策略,可以更高效地利用模型进行策略学习。最后,通过在OpenAI的Gym公共实验环境和两个工业场景的仿真环境的实验表明:基于二阶价值梯度模型对比传统的基于最大似然估计模型,环境模型预测误差显著降低;基于二阶价值梯度模型的强化学习方法学习效率优于现有的基于模型的策略优化方法,具备更好的控制性能,并减小了控制过程中的振荡现象。可见该方法能有效地提升训练效率,同时提高工业过程控制的稳定性和准确性。 展开更多
关键词 工业过程控制 模型强化学习 二阶价值梯度 状态价值函数 状态采样策略
下载PDF
考虑未来运营收益的自动驾驶出租车充放电协同路径规划
2
作者 曾伟良 韩宇 傅惠 《工业工程》 2024年第4期132-140,149,共10页
现有的出租车调度模型通常只优化实时成本而忽视当前路径规划对未来运营收益的影响,这不利于自动驾驶环境下的连续调度。为此,本文提出一个专注于长期收益的路径规划模型,并利用强化学习将预估的未来运营收益整合到实时调度问题中。模... 现有的出租车调度模型通常只优化实时成本而忽视当前路径规划对未来运营收益的影响,这不利于自动驾驶环境下的连续调度。为此,本文提出一个专注于长期收益的路径规划模型,并利用强化学习将预估的未来运营收益整合到实时调度问题中。模型的具体求解方法是先利用神经网络来拟合车辆的不同时空状态的状态价值函数,再通过双神经网络和经验池的方式加快算法收敛。深圳路网仿真实验表明,所提出的调度模型能够预先精准地调度车队,服务更多乘客,获得更大的运营收益;并且模型能够利用分时电价的峰谷特征和电动汽车入网(vehicle to grid,V2G)技术进行充放电,从而降低车队的能耗成本。相较于其他调度模型,该模型在长期运营中实现乘客匹配服务率增加4%,总收益提高25%,能耗成本节省50%以及乘客等待时间降低20%。 展开更多
关键词 未来运营收益 强化学习 分时电价 电动汽车入网技术 状态价值函数
下载PDF
改进深度Q网络的无人车换道决策算法研究 被引量:1
3
作者 张鑫辰 张军 +2 位作者 刘元盛 路铭 谢龙洋 《计算机工程与应用》 CSCD 北大核心 2022年第7期266-275,共10页
深度Q网络(deep Q network,DQN)模型已被广泛应用于高速公路场景中无人车换道决策,但传统的DQN存在过估计且收敛速度较慢的问题。针对此问题提出了基于改进深度Q网络的无人车换道决策模型。将得到的状态值分别输入到两个结构相同而参数... 深度Q网络(deep Q network,DQN)模型已被广泛应用于高速公路场景中无人车换道决策,但传统的DQN存在过估计且收敛速度较慢的问题。针对此问题提出了基于改进深度Q网络的无人车换道决策模型。将得到的状态值分别输入到两个结构相同而参数更新频率不同的神经网络中,以此来减少经验样本之间的相关性,然后将隐藏层输出的无人车状态信息同时输入到状态价值函数(state value function)流和动作优势函数(action advantage function)流中,从而更准确地得到模型中每个动作对应的Q值,再采用优先级经验回放(prioritized experience replay,PER)的方式从经验回放单元中抽取经验样本,增加经验回放单元中重要样本的利用率。在NGSIM数据集搭建的实验场景中进行模型的训练和测试,实验结果表明,改进的深度Q网络模型可以使无人车更好地理解环境中的状态变化,提高了换道决策成功率的同时网络的收敛速度也得到提升。 展开更多
关键词 无人车 换道决策 状态价值函数 动作优势函数 优先级经验回放
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部