频发的交通事故证明驾驶车辆是一类高风险行为,驾驶人的风险驾驶行为是引发交通事故的主要诱因,自动驾驶系统辅助或代替人类驾驶人被视为从根本上解决人为因素导致行车风险的有效途径。首先,以智能汽车的整体安全性最大化为目标,使用熵...频发的交通事故证明驾驶车辆是一类高风险行为,驾驶人的风险驾驶行为是引发交通事故的主要诱因,自动驾驶系统辅助或代替人类驾驶人被视为从根本上解决人为因素导致行车风险的有效途径。首先,以智能汽车的整体安全性最大化为目标,使用熵权-逼近理想解排序法(Technique for Order Preference by Similarity to Ideal Solution,TOPSIS)和完全静态博弈理论建立了人、车风险博弈模型,提出了相对效用最大化的策略函数并嵌入强化学习奖励函数中,推理了以最大化车辆安全性期望为导向的强化学习奖惩机制。其次,利用强化学习算法擅长解决序列决策问题的优势,提出了基于优势演员评论家(Advantage Actor Critic,A2C)的人机共驾控制权决策方法,通过迭代人、车风险决策权重和奖励函数优化了决策模型的输出效果,借助模型性能评价指标进行了训练过程和结果的有效性验证。最后,通过仿真试验分析了不同切换时机对车辆安全性的影响,提出了能够及时有效地限制驾驶人风险行为并提升车辆安全性的控制权决策方法。研究结果表明:研究创新地以人、车风险监测模块分别映射至A2C的演员、评论家模块为研究框架,充分发挥了智能汽车与人、车风险状态进行交互并通过获取奖励来迭代更新取得最大回报的效果,实现了以促进车辆安全性最大化为导向的人机共驾控制权决策方法。展开更多
文摘频发的交通事故证明驾驶车辆是一类高风险行为,驾驶人的风险驾驶行为是引发交通事故的主要诱因,自动驾驶系统辅助或代替人类驾驶人被视为从根本上解决人为因素导致行车风险的有效途径。首先,以智能汽车的整体安全性最大化为目标,使用熵权-逼近理想解排序法(Technique for Order Preference by Similarity to Ideal Solution,TOPSIS)和完全静态博弈理论建立了人、车风险博弈模型,提出了相对效用最大化的策略函数并嵌入强化学习奖励函数中,推理了以最大化车辆安全性期望为导向的强化学习奖惩机制。其次,利用强化学习算法擅长解决序列决策问题的优势,提出了基于优势演员评论家(Advantage Actor Critic,A2C)的人机共驾控制权决策方法,通过迭代人、车风险决策权重和奖励函数优化了决策模型的输出效果,借助模型性能评价指标进行了训练过程和结果的有效性验证。最后,通过仿真试验分析了不同切换时机对车辆安全性的影响,提出了能够及时有效地限制驾驶人风险行为并提升车辆安全性的控制权决策方法。研究结果表明:研究创新地以人、车风险监测模块分别映射至A2C的演员、评论家模块为研究框架,充分发挥了智能汽车与人、车风险状态进行交互并通过获取奖励来迭代更新取得最大回报的效果,实现了以促进车辆安全性最大化为导向的人机共驾控制权决策方法。