组合动作空间深度强化学习的人群疏散引导方法被引量：3

Crowd evacuation guidance based on combined action-space deep reinforcement learning

下载PDF

导出

摘要人群疏散引导系统可在建筑物内发生灾害时有效保护生命安全,减少人员财产损失。针对现有人群疏散引导系统需要人工设计模型和输入参数,工作量大且容易造成误差的问题,本文提出了基于深度强化学习的端到端智能疏散引导方法,设计了基于社会力模型的强化学习智能体仿真交互环境。使智能体可以仅以场景图像为输入,通过与仿真环境的交互和试错自主学习场景模型,探索路径规划策略,直接输出动态引导标志信息,指引人群有效疏散。针对强化学习深度Q网络(DQN)算法在人群疏散问题中因为动作空间维度较高,导致神经网络复杂度指数增长的“维度灾难”现象,本文提出了将Q网络输出层按动作维度分组的组合动作空间DQN算法,显著降低了网络结构复杂度,提高了系统在多个引导标志复杂场景中的实用性。在不同场景的仿真实验表明本文方法在逃生时间指标上优于静态引导方法,达到人工构造模型方法的相同水平。说明本文方法可以有效引导人群,提高疏散效率,同时降低人工构造模型的工作量并减小人为误差。 Crowd evacuation guidance systems are of great significance for protecting lives and reducing personal and property losses during disasters in buildings.Existing crowd evacuation guidance systems require the manual design of models and input parameters,incurring significant workloads and potential errors.An end-to-end intelligent evacuation guidance method based on deep reinforcement learning was proposed,and an interactive simulation environment based on the social force model was designed.The agent could automatically learn a scene model and explore the path planning strategy by interacting with simulation environment and through trial and error with only scene images as input,and then directly output dynamic signage information,thus achieving the crowd evacuation guidance efficiently.Aiming to solve the“dimension disaster”phenomenon of deep Q network(DQN)algorithm caused by high dimension action space and complex network structure in crowd evacuation,a combined action-space DQN algorithm was proposed.The algorithm grouped the output layer nodes of the Q network according to action dimensions,significantly reduced the network complexity,and improved the practicality of the system in complex scenes with multiple guidance signs.Experiments in different simulation scenes demonstrate that the proposed method is superior to the static guidance method in evacuation time and on par with the manually designed model method.It shows that the proposed method can effectively guide the crowd,improve the evacuation efficiency,and reduce the workload and artificial errors of manually designed models.

作者薛怡然吴锐刘家锋 XUE Yiran;WU Rui;LIU Jiafeng(Pattern Recognition and Intelligent System Research Center(Harbin Institute of Technology),Harbin 150001,China)

机构地区模式识别与智能系统研究中心(哈尔滨工业大学)

出处《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2021年第8期29-38,共10页 Journal of Harbin Institute of Technology

基金国家自然科学基金(61672190)。

关键词神经网络强化学习疏散引导人群仿真深度Q网络 neural network reinforcement learning evacuation guidance crowd simulation deep Q network(DQN)

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献13

1刘翠娟,刘箴,柴艳杰,刘婷婷,倪仲锐.人群应急疏散中一种多智能体情绪感染仿真模型[J].计算机辅助设计与图形学学报,2020,32(4):660-670. 被引量：7
2苟成秋,余瀚游,徐梓桉,李晓峰,张严辞.基于信息非对称性的小群组紧急疏散行为模拟[J].计算机辅助设计与图形学学报,2018,30(3):524-530. 被引量：6
3赵巍,刘畅,廉兴宇,薛怡然,郭英东.人群运动仿真和疏散优化方法设计与实现[J].系统仿真学报,2014,26(3):523-529. 被引量：10
4周敏,董海荣,徐惠春,李浥东,王飞跃.平行应急疏散系统:基本概念、体系框架及其应用[J].自动化学报,2019,45(6):1074-1086. 被引量：15
5孙立博,孙晓峰,秦文虎.基于连续模型和动力学仿真模型的高密度人群仿真算法[J].计算机学报,2016,39(7):1375-1392. 被引量：5
6王爱丽,董宝田,王泽胜.基于社会力的行人交通微观仿真模型研究[J].系统仿真学报,2014,26(3):662-669. 被引量：10
7董崇杰,刘毅,彭勇.改进布谷鸟算法在人群疏散多目标优化中的应用[J].系统仿真学报,2016,28(5):1063-1069. 被引量：24
8任治国,盖文静,彭群生.疏散仿真中关注个体心理的路径规划[J].计算机辅助设计与图形学学报,2015,27(9):1775-1785. 被引量：4
9丁雨淋,何小波,朱庆,林珲,胡明远.实时威胁态势感知的室内火灾疏散路径动态优化方法[J].测绘学报,2016,45(12):1464-1475. 被引量：23
10韩延彬,刘弘.一种基于疏散路径集合的路径选择模型在人群疏散仿真中的应用研究[J].计算机学报,2018,41(12):2653-2669. 被引量：9

二级参考文献96

1王飞跃.人工社会、计算实验、平行系统——关于复杂社会经济系统计算研究的讨论[J].复杂系统与复杂性科学,2004,1(4):25-35. 被引量：234
2陈能成,狄黎平,龚健雅,郑重.基于Web目录服务的地学传感器观测服务注册和搜索[J].遥感学报,2008,12(3):411-419. 被引量：7
3武小康,周利锋.行人仿真在轻轨车站应急疏散领域的应用[J].重庆交通大学学报（自然科学版）,2012,31(4):772-776. 被引量：11
4王飞跃.平行系统方法与复杂系统的管理和控制[J].控制与决策,2004,19(5):485-489. 被引量：332
5王飞跃.计算实验方法与复杂系统行为分析和决策评估[J].系统仿真学报,2004,16(5):893-897. 被引量：147
6王飞跃.关于复杂系统研究的计算理论与方法[J].中国基础科学,2004,6(5):3-10. 被引量：97
7陈章其,吴冲若.火灾传感器[J].电子器件,1995,18(1):55-58. 被引量：6
8陈涛,应振根,申世飞,袁宏永,范维澄.相对速度影响下社会力模型的疏散模拟与分析[J].自然科学进展,2006,16(12):1606-1612. 被引量：36
9吕广宪,潘懋,王占刚,丛威青.面向体数据的虚拟八叉树模型研究[J].计算机应用,2006,26(12):2856-2859. 被引量：9
10范维澄.国家突发公共事件应急管理中科学问题的思考和建议[J].中国科学基金,2007,21(2):71-76. 被引量：253

共引文献105

1何苗,沈大勇,王涛,邹玉,黄山,李济廷.基于ACP方法的平行人力资源管理框架[J].网络安全与数据治理,2023,42(S02):17-25.
2吕林森,谷溢,闫明柯.城市雨洪灾害疏散模型综述研究[J].工业建筑,2023,53(S02):81-84.
3牛磊,宋宜全,张宏敏,苏洁.空间分布的火灾室内通行网络脆弱性分析模型[J].测绘科学,2019,44(2):43-49. 被引量：2
4刘君强,彭智勇.基于多阶段特征的人群疏散控制仿真研究[J].计算机仿真,2015,32(5):441-444. 被引量：6
5吴海燕,杨陶源.基于Legion的城市轨道交通车站客流组织仿真与评价[J].北京建筑大学学报,2015,31(3):54-59. 被引量：12
6蒋阳升,朱娟秀,胡路,韩世凡.地铁楼梯宽度的排队系统仿真优化[J].系统仿真学报,2016,28(1):129-138. 被引量：2
7徐斌,刘弘.融合社会力与人工蜂群的人群疏散仿真方法[J].小型微型计算机系统,2016,37(8):1725-1729. 被引量：4
8刘婷婷,刘箴,柴艳杰,刘翠娟,陈佳鑫.一种基于心理学模型的人群踩踏情景仿真方法[J].系统仿真学报,2016,28(10):2448-2454. 被引量：7
9何民,栾庆熊,税文兵,于海宁,樊冬.考虑同伴群的行人感知避让社会力改进模型[J].公路交通科技,2017,34(3):125-130. 被引量：4
10秦欣,刘弘,刘宝玺,张浩.面向人群疏散仿真的双层关系机制驱动的社会力模型[J].小型微型计算机系统,2017,38(4):839-844.

同被引文献19

1李锋,刘晓强.基于Agent和元胞的火灾逃生仿真模型应用研究[J].系统仿真学报,2008,20(15):4163-4167. 被引量：8
2彭锐,刘皆谊.日本避难场所规划及其启示[J].新建筑,2009(2):102-106. 被引量：10
3丁建勋,黄海军.考虑控制策略的公交运输系统元胞自动机模型[J].交通运输系统工程与信息,2010,10(3):35-41. 被引量：2
4田玉敏.人群疏散心理及行为个体差异的探讨[J].人类工效学,2010,16(3):53-55. 被引量：7
5曹宁博,陈永恒,曲昭伟,赵利英,白乔文,杨秋杰.基于社会力模型的行人路径选择模型[J].浙江大学学报（工学版）,2018,52(2):352-357. 被引量：13
6厉志强,崔巍,张克姝,王冰松,Michael Kinsey,杜璐露,孙晓乾.某新型地铁列车的疏散模型分析[J].消防科学与技术,2019,38(11):1538-1543. 被引量：5
7杨海明,赵道亮,孙康娴,刘谦,曾美婷,杨莉.基于MassMotion及PyroSim的高层宿舍火灾模拟研究[J].消防科学与技术,2020,39(1):52-55. 被引量：5
8邓媛媛,郑利平,蔡瑞文.社会行为驱动的疏散仿真方法研究[J].系统仿真学报,2020,32(1):130-141. 被引量：11
9李枫,吴潼,葛丽娟.恐怖袭击情境下地铁车站应急疏散仿真方法改进研究[J].城市轨道交通研究,2020,23(3):106-112. 被引量：6
10毛亚兰,张锦.考虑乘客不完全理性行为的轨道交通车站应急疏散方法研究[J].工业工程,2020,23(3):138-144. 被引量：8

引证文献3

1刘延东,黄高翔,陈文.基于增强心理行为异质性的改进社会力模型[J].系统仿真学报,2023,35(5):1120-1130. 被引量：4
2高洁,王新鹏.基于Massmotion软件的楼梯单双向流疏散方式模拟研究[J].成都工业学院学报,2024,27(2):29-34. 被引量：1
3高凤强,王若宇,曹光求,刘暾东.基于扩展卡尔曼滤波的疏散行人密度预测算法研究[J].仪器仪表学报,2024,45(5):281-290.

二级引证文献5

1李东彪,杨鹏宇,陈妍陆,王昊,糜长军.基于仿真的高速公路隧道疏散安全设施配置策略[J].公路交通科技,2023,40(S01):381-388.
2李昆,丁景轩,李姣姣.考虑信息传递机制的改进社会力模型[J].中国安全科学学报,2024,34(4):217-225.
3霍非舟,吕紫含,李超,范丹丹,吴丽君,刘昶.考虑结伴行为的养老场所多群体人员疏散研究[J].灾害学,2024,39(3):153-159.
4王志龙.考虑恐慌情绪的元胞自动机疏散模型研究[J].山东航空学院学报,2024,41(4):100-106.
5林佳铭,黄圳瀚.BIM在历史保护建筑改造修缮中功能转型设计的探索[J].建筑施工,2024,46(9):1381-1384.

1安德宇.基于改进的社会力模型的人群动态疏散方法[J].信息与电脑,2021,33(10):63-66.
2李明国.高校篮球教学与训练的问题与改进策略[J].体育视野,2020(11):45-46. 被引量：1
3吉丽.浅谈如何提高小学小组合作学习的有效性[J].新丝路（下旬）,2021(7):0236-0236.
4李松,胡晏铭,郝晓红,张丽平,郝忠孝.基于维度分组降维的高维数据近似k近邻查询[J].计算机研究与发展,2021,58(3):609-623. 被引量：6
5杨胜慧,陈晨,赵玺,钟誉,安广节.2017—2019年天津市医疗卫生系统控烟暗访结果分析[J].中国健康教育,2021,37(6):517-519. 被引量：1
6赵艳斌,王光兴.警惕羚羊效应[J].政工导刊,2021(7):73-73.
7陈志光.把握项目技能特征教学开放性运动[J].小学生（多元智能大王）,2021(5):89-89.
8跨越彩虹.2021边缘计算企业TOP50[J].互联网周刊,2021(14):18-19.
9杨桦,范国良,唐志新,张无敌,陈一洲,吴迪.矿井火灾智能疏散模拟研究——以新疆某铜矿为例[J].矿业研究与开发,2021,41(2):155-160. 被引量：4
10徐键萍,陈虹.对称的日落蛾[J].儿童故事画报,2021(15):14-15.

哈尔滨工业大学学报

2021年第8期

浏览历史

内容加载中请稍等...

组合动作空间深度强化学习的人群疏散引导方法被引量：3

参考文献13

二级参考文献96

共引文献105

同被引文献19

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

组合动作空间深度强化学习的人群疏散引导方法 被引量：3

参考文献13

二级参考文献96

共引文献105

同被引文献19

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

组合动作空间深度强化学习的人群疏散引导方法被引量：3