为实现混合动力系统在电池荷电状态(state of charge,SOC)平衡以及动力性约束下的经济性提升,提出了基于偏好强化学习的混合动力能量管理策略,该策略将能量管理问题建模为马尔科夫决策过程,采用深度神经网络建立输入状态值到最优动作控...为实现混合动力系统在电池荷电状态(state of charge,SOC)平衡以及动力性约束下的经济性提升,提出了基于偏好强化学习的混合动力能量管理策略,该策略将能量管理问题建模为马尔科夫决策过程,采用深度神经网络建立输入状态值到最优动作控制输出的函数映射关系。与传统的强化学习控制算法相比,偏好强化学习算法无需设定回报函数,只需对多动作进行偏好判断即可实现网络训练收敛,克服了传统强化学习方法中回报函数加权归一化设计难题。通过仿真试验和硬件在环验证了所提出能量管理策略的有效性和可行性。结果表明,与传统强化学习能量管理策略相比,该策略能够在满足混合动力车辆SOC平衡和动力性约束下,提升经济性4.6%~10.6%。展开更多
文摘为实现混合动力系统在电池荷电状态(state of charge,SOC)平衡以及动力性约束下的经济性提升,提出了基于偏好强化学习的混合动力能量管理策略,该策略将能量管理问题建模为马尔科夫决策过程,采用深度神经网络建立输入状态值到最优动作控制输出的函数映射关系。与传统的强化学习控制算法相比,偏好强化学习算法无需设定回报函数,只需对多动作进行偏好判断即可实现网络训练收敛,克服了传统强化学习方法中回报函数加权归一化设计难题。通过仿真试验和硬件在环验证了所提出能量管理策略的有效性和可行性。结果表明,与传统强化学习能量管理策略相比,该策略能够在满足混合动力车辆SOC平衡和动力性约束下,提升经济性4.6%~10.6%。