以某款双行星排混合动力公交车为样车,针对控制变量柴油机转速的离散控制和连续控制分别提出基于双深度Q网络(double deep Q-learning,DDQN)和基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradients,TD3)的...以某款双行星排混合动力公交车为样车,针对控制变量柴油机转速的离散控制和连续控制分别提出基于双深度Q网络(double deep Q-learning,DDQN)和基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradients,TD3)的能量管理策略,并使用优先级经验回放对策略进行优化。仿真研究了样车在C-WTVC工况下的能量管理特性。通过与动态规划策略(dynamic programming,DP)进行对比发现:DDQN和TD3策略收敛速度快,具有较强的自适应能力;与DP策略相似,DDQN和TD3策略在控制逻辑上均表现为低速和较低转矩时纯电驱动,高速和较高转矩时混合驱动;3种策略下柴油机均主要工作于中低转速区间,且TD3策略可以对柴油机转速进行连续控制;DDQN和TD3策略的百公里油耗分别为19.51 L和19.48 L,燃油经济性均达到DP策略的93%,研究证明了DDQN和TD3策略的有效性。展开更多