面向无人驾驶时空同步约束制导的安全强化学习被引量：3

Spatio-Clock Synchronous Constraint Guided Safe Reinforcement Learning for Autonomous Driving

下载PDF

导出

摘要无人驾驶系统综合了软件和硬件复杂的交互过程,在系统设计阶段,形式化方法可以保证系统满足逻辑规约和安全需求;在系统运行阶段,深度强化学习被广泛应用于无人驾驶系统决策中.然而,在面对没有经验的场景和复杂决策任务时,基于黑盒的深度强化学习系统并不能保证系统的安全性和复杂任务奖励函数设置的可解释性.为此提出了一种形式化时空同步约束制导的安全强化学习方法.首先,提出了一种形式化时空同步约束规约语言,接近自然语言的安全需求规约使奖励函数的设置更具有解释性.其次,展示了时空同步自动机和状态动作空间迁移系统,保证强化学习的状态行为策略更加安全.然后,提出了结合形式化时空约束制导的安全强化学习方法.最后,通过无人驾驶汽车在高速场景变道超车的案例,验证所提方法的有效性. Autonomous driving systems integrate complex interactions between hardware and software.In order to ensure the safe and reliable operations,formal methods are used to provide rigorous guarantees to satisfy logical specifications and safety-critical requirements in the design stage.As a widely employed machine learning architecture,deep reinforcement learning(DRL)focuses on finding an optimal policy that maximizes a cumulative discounted reward by interacting with the environment,and has been applied to autonomous driving decision-making modules.However,black-box DRL-based autonomous driving systems cannot provide guarantees of safe operation and reward definition interpretability techniques for complex tasks,especially when they face unfamiliar situations and reason about a greater number of options.In order to address these problems,spatio-clock synchronous constraint is adopted to augment DRL safety and interpretability.Firstly,we propose a dedicated formal properties specification language for autonomous driving domain,i.e.,spatio-clock synchronous constraint specification language,and present domain-specific knowledge requirements specification that is close to natural language to make the reward functions generation process more interpretable.Secondly,we present domain-specific spatio-clock synchronous automata to describe spatio-clock autonomous behaviors,i.e.,controllers related to certain spatio-and clock-critical actions,and present safe state-action space transition systems to guarantee the safety of DRL optimal policy generation process.Thirdly,based on the formal specification and policy learning,we propose a formal spatio-clock synchronous constraint guided safe reinforcement learning method with the goal of easily understanding the safe reward function.Finally,we demonstrate the effectiveness of our proposed approach through an autonomous lane changing and overtaking case study in the highway scenario.

作者王金永黄志球杨德艳 Xiaowei Huang 祝义华高洋 Wang Jinyong;Huang Zhiqiu;Yang Deyan;Xiaowei Huang;Zhu Yi;Hua Gaoyang(College of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 211106;Key Laboratory of Safety-Critical Software(Nanjing University of Aeronautics and Astronautics),Ministry of Industry and Information Technology,Nanjing 211106;School of Computer Science and Technology,Jiangsu Normal University,Xuzhou,Jiangsu 221116;Department of Computer Science,University of Liverpool,Liverpool,UK L693BX)

机构地区南京航空航天大学计算机科学与技术学院高安全系统的软件开发与验证技术工信部重点实验室(南京航空航天大学) 江苏师范大学计算机科学与技术学院利物浦大学计算机科学系

出处《计算机研究与发展》 EI CSCD 北大核心 2021年第12期2585-2603,共19页 Journal of Computer Research and Development

基金国家重点研发计划项目(2018YFB1003900) 国家自然科学基金项目(61772270,62077029)。

关键词时空同步约束形式化规约安全强化学习时序差分智能交通仿真无人驾驶安全 spatio-clock synchronous constraint formal specification safe reinforcement learning temporal difference intelligent traffic simulation autonomous driving safety

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1周志杰,曹友,胡昌华,唐帅文,张春潮,王杰.基于规则的建模方法的可解释性及其发展[J].自动化学报,2021,47(6):1201-1216. 被引量：15
2Yuanrui ZHANG,Frédéric MALLET,Yixiang CHEN.A verification framework for spatio-temporal consistency language with CCSL as a specification language[J].Frontiers of Computer Science,2020,14(1):105-129. 被引量：2
3纪守领,李进锋,杜天宇,李博.机器学习模型可解释性方法、应用与安全研究综述[J].计算机研究与发展,2019,56(10):2071-2096. 被引量：148
4陈红名,刘全,闫岩,何斌,姜玉斌,张琳琳.基于经验指导的深度确定性多行动者-评论家算法[J].计算机研究与发展,2019,56(8):1708-1720. 被引量：6

二级参考文献11

1张松涛,任光.基于分段模糊Lyapunov方法的离散模糊系统分析与设计[J].自动化学报,2006,32(5):813-818. 被引量：8
2牛培峰,丁希生.两层模糊控制在循环流化床床温控制系统中的应用[J].燕山大学学报,2008,32(2):124-128. 被引量：10
3王宁,孟宪尧.输入采用一般模糊划分的T-S模糊控制系统稳定性分析[J].自动化学报,2008,34(11):1441-1445. 被引量：10
4张海,周德云,佟明安.基于规则控制的快速高度跟踪算法[J].火力与指挥控制,1999,24(3):21-26. 被引量：1
5刘全,闫其粹,伏玉琛,胡道京,龚声蓉.一种基于启发式奖赏函数的分层强化学习方法[J].计算机研究与发展,2011,48(12):2352-2358. 被引量：11
6廖贵敏.基于故障树模型的知识表达方法综述[J].电脑与信息技术,2000,8(1):6-8. 被引量：3
7常雷雷,李孟军,鲁延京,程贲,张晓航.基于主成分分析的置信规则库结构学习方法[J].系统工程理论与实践,2014,34(5):1297-1304. 被引量：7
8王应明,杨隆浩,常雷雷,傅仰耿.置信规则库规则约简的粗糙集方法[J].控制与决策,2014,29(11):1943-1950. 被引量：9
9张汝波,唐平鹏,杨歌,李雪耀,史长亭.水面无人艇自适应危险规避决策过程收敛性分析[J].计算机研究与发展,2014,51(12):2644-2652. 被引量：6
10Yanwen CHEN,Yixiang CHEN,Eric MADELAINE.Timed-pNets： a communication behavioural semantic model for distributed systems[J].Frontiers of Computer Science,2015,9(1):87-110. 被引量：1

共引文献166

1付佳俊,卢梅丽,曹一凡,郭兆桦,高资成.基于深度学习的t-fMRI脑状态解码[J].天津职业技术师范大学学报,2022,32(4):45-50.
2马舒岑,史建琦,黄滟鸿,秦胜潮,侯哲.基于最小不满足核的随机森林局部解释性分析[J].软件学报,2022,33(7):2447-2463. 被引量：2
3程晓玉,韩鹏,贺维,张朋,韩晓霞,李英梅,曹友.一种新的基于可解释性置信规则库的飞轮健康状态评估模型[J].航空学报,2023,44(S01):177-189.
4赵岩,罗岱,樊娟娟,封少东.船舶与海上设施数字孪生系统评价体系[J].船舶工程,2022,44(S01):548-553.
5李艳红,姚元庆,姚兵,黄威权,杨梦庚.原癌基因c-myc产物在小鼠早期胚胎中的表达[J].第四军医大学学报,2000,21(2):253-254. 被引量：1
6肖丽利.基于探索性和聚类的《高等数学》成绩分析[J].四川文理学院学报,2020,30(2):42-46. 被引量：1
7郭炜炜,张增辉,郁文贤,孙效华.SAR图像目标识别的可解释性问题探讨[J].雷达学报（中英文）,2020,9(3):462-476. 被引量：23
8周俊,方国英,吴楠.联邦学习安全与隐私保护研究综述[J].西华大学学报（自然科学版）,2020,39(4):9-17. 被引量：22
9陈珂锐,孟小峰.机器学习的可解释性[J].计算机研究与发展,2020,57(9):1971-1986. 被引量：45
10范铭,刘烃,刘均,罗夏朴,于乐,管晓宏.安卓恶意软件检测方法综述[J].中国科学：信息科学,2020,50(8):1148-1177. 被引量：19

同被引文献36

1黄晓明,蒋永茂,郑彬双,赵润民.基于路表摩擦特性的无人驾驶车辆安全制动原理与方法[J].科学通报,2020(30):3328-3341. 被引量：12
2廖了,魏汝焱,卢军,陈士凌.山地城市绿地和水体对热环境的影响[J].重庆大学学报,2022,45(S01):125-129. 被引量：1
3侯赛男,党国锋.机器学习模拟热环境及热岛时空变化特征研究[J].测绘科学,2022,47(9):200-207. 被引量：3
4陈凯,朱钰.机器学习及其相关算法综述[J].统计与信息论坛,2007,22(5):105-112. 被引量：83
5牛文元.可持续发展理论的内涵认知——纪念联合国里约环发大会20周年[J].中国人口·资源与环境,2012,22(5):9-14. 被引量：164
6何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336. 被引量：326
7姚婷婷,马晓茜,王梓桓.基于多元线性回归模型和碳平衡的CO2排放量简便算法[J].环境污染与防治,2017,39(11):1264-1267. 被引量：5
8黄隆杨,刘胜华,李健.城市生态用地时空动态及其相关驱动力——以武汉市为例[J].长江流域资源与环境,2019,28(5):1059-1069. 被引量：22
9左芝鲤,郭海湘,成金华.长江经济带空气质量影响因素研究[J].环境经济研究,2018,3(4):150-167. 被引量：8
10霍娟,孙晓伟,张明杰.电力负荷预测算法比较-随机森林与支持向量机[J].电力系统及其自动化学报,2019,31(7):129-134. 被引量：23

引证文献3

1蒋荣军.基于Concenter-Net神经网络的无人驾驶汽车实时规划方法[J].数学的实践与认识,2023,53(5):164-171.
2刘泽润,刘超.可持续建成环境研究的机器学习应用进展与展望[J].风景园林,2023,30(7):51-59.
3孙聪,曾荟铭,宋焕东,王运柏,张宗旭,马建峰.基于机器学习的无人机传感器攻击在线检测和恢复方法[J].计算机研究与发展,2023,60(10):2291-2303. 被引量：1

二级引证文献1

1贾国栋,庞浩,王相涛,刘青,宋倩.基于大数据和人工智能技术的油田智能分析辅助决策子系统[J].天然气与石油,2024,42(3):137-144.

1闫倩倩,缪炜恺.轨道交通控制软件中基于场景的需求分析方法[J].计算机工程,2021,47(8):284-293.
2闫皎洁,张锲石,胡希平.基于强化学习的路径规划技术综述[J].计算机工程,2021,47(10):16-25. 被引量：40
3倪晓.基于数字播控技术的电视台播出系统优化思考[J].市场调查信息（综合版）,2021(9):19-19.
4贾世奇.高质量发展视域下中国文化服务业的发展潜力研究[J].创新,2021,15(5):93-104. 被引量：3
5匡小青,凌宇,万新.基于小波多尺度分析的输电线路交互式数据迁移系统设计[J].电子设计工程,2021,29(17):147-151. 被引量：2
6戴小卫.发电厂跨厂区灾备级业务不间断迁移系统设计[J].自动化应用,2021(4):89-91.
7杨通,南燕云,张智杰,于潇,王效科.基于主被动遥感协同的山体隆升动态监测研究[J].干旱区资源与环境,2021,35(10):178-184.
8张惠煜,陈庆新,毛宁,李翔,俞爱林,梁祖红.两阶齐套性约束的制造系统排队网建模与缓冲区优化[J].计算机集成制造系统,2021,27(10):2889-2898. 被引量：1
9安冬冬,刘静,陈小红,孙海英.不确定环境下hCPS系统的形式化建模与动态验证[J].软件学报,2021,32(7):1999-2015. 被引量：2
10张永凯,武志昊,林友芳,赵苡积.面向交通流量预测的时空超关系图卷积网络[J].计算机应用,2021,41(12):3578-3584. 被引量：5

计算机研究与发展

2021年第12期

浏览历史

内容加载中请稍等...

面向无人驾驶时空同步约束制导的安全强化学习被引量：3

参考文献4

二级参考文献11

共引文献166

同被引文献36

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

面向无人驾驶时空同步约束制导的安全强化学习 被引量：3

参考文献4

二级参考文献11

共引文献166

同被引文献36

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

面向无人驾驶时空同步约束制导的安全强化学习被引量：3