摘要
在具有高延迟、非线性特性和强耦合性的复杂工业环境中,实现稳定而准确的连续控制面具有一定挑战。为了应对该问题,本文提出一种基于二阶价值梯度的强化学习模型的创新控制策略。该策略首次将状态价值函数的二阶梯度信息纳入模型训练,旨在利用更准确的函数近似提高学习迭代效率,并增强模型的鲁棒性。本文还引入一种高效的状态采样策略,以优化策略学习过程。基于OpenAI Gym平台和2种工业场景的仿真测试表明,与基于最大似然估计的传统模型相比,本文方法显著降低了环境模型的预测误差,提高了学习效率和控制性能,有效减少了控制过程中的振荡现象。
出处
《中国新技术新产品》
2024年第15期22-25,共4页
New Technology & New Products of China