基于深度确定性策略梯度的智能车汇流模型被引量：4

Traffic Merging Model for Intelligent Vehicle Based on Deep Deterministic Policy Gradient

下载PDF

导出

摘要采用离散动作空间描述速度变化的智能车汇流模型不能满足实际车流汇入场景的应用要求,而深度确定性策略梯度(DDPG)结合策略梯度和函数近似方法,采用与深度Q网络(DQN)相同的网络结构,并使用连续动作空间对问题进行描述,更适合描述智能车速度变化。为此,提出一种基于DDPG算法的智能车汇流模型,将汇流问题转化为序列决策问题进行求解。实验结果表明,与基于DQN的模型相比,该模型的收敛速度较快,稳定性和成功率较高,更适合智能车汇入车辆场景的应用。 Traffic merging models for intelligent vehicle that use discrete action space to describe changing speed cannot meet the application requirements of actual traffic merging scenarios.Deep Deterministic Policy Gradient(DDPG),which integrates policy gradient with function approximation methods and adopts the same network structure as Deep Q-Network(DQN),uses continuous action space for problem description.So DDPG is more suitable for describing the changing speed of intelligent vehicles.On this basis,this paper proposes a traffic merging model for intelligent vehicles based on the DDPG algorithm,reducing the traffic merging problem to a sequence decision problem to be resolved.Experimental results show that compared with DQN-based models,the proposed model has a faster convergence speed,higher reliability and a higher success rate,which means it is more applicable to traffic merging scenarios of intelligent vehicle.

作者吴思凡杜煜徐世杰杨硕杜晨 WU Sifan;DU Yu;XU Shijie;YANG Shuo;DU Chen(Smart City College,Beijing Union University,Beijing 100101,China;College of Robotics,Beijing Union University,Beijing 100101,China;Beijing Key Laboratory of Information Service Engineering,Beijing Union University,Beijing 100101,China)

机构地区北京联合大学智慧城市学院北京联合大学机器人学院北京联合大学北京市信息服务工程重点实验室

出处《计算机工程》 CAS CSCD 北大核心 2020年第1期87-92,共6页 Computer Engineering

基金国家自然科学基金(91420202)

关键词智能车汇流深度确定性策略梯度深度Q网络连续动作空间 intelligent vehicle traffic merging Deep Deterministic Policy Gradient(DDPG) Deep Q-Network(DQN) continuous action space

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1苏锑,杨明,王春香,唐卫,王冰.一种基于分类回归树的无人车汇流决策方法[J].自动化学报,2018,44(1):35-43. 被引量：14
2王尔根,孙剑.城市快速路匝道车辆汇入影响因素识别与行为预测[J].交通运输工程学报,2018,18(3):180-188. 被引量：4
3刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：446
4乔良,鲍泓,玄祖兴,梁军,潘峰.基于强化学习的无人驾驶匝道汇入模型[J].计算机工程,2018,44(7):20-24. 被引量：8
5张健沛,刘洋,杨静,代坤.搜索引擎结果聚类算法研究[J].计算机工程,2004,30(5):95-97. 被引量：11
6陈学松,杨宜民.强化学习研究综述[J].计算机应用研究,2010,27(8):2834-2838. 被引量：60

二级参考文献80

1杨洋,陈小平.动态不确定环境下的决策:一种分层决策模型[J].计算机科学,2005,32(1):151-154. 被引量：1
2魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
3苏畅,高阳,陈世福,陈兆乾.基于SMDP环境的自主生成options算法的研究[J].模式识别与人工智能,2005,18(6):679-684. 被引量：9
4秦志斌,钱徽,朱淼良.自主移动机器人混合式体系结构的一种Multi-agent实现方法[J].机器人,2006,28(5):478-482. 被引量：8
5臧志刚,陆锋,李海峰,崔海燕.7种微观交通仿真系统的性能评价与比较研究[J].交通与计算机,2007,25(1):66-70. 被引量：35
6高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
7[1]Zamir O, Etzioni O. Web Document Clustering : A Feasibility Demos- tration. SIGIR'98,1998
8[2]Zamir O, Etzioni O. Grouper: A Dynamic Clustering Interface to Web Search Results. In: Proceedings of 8th WWW Conference, Toronto Canada, 1999
9原魁,李园,房立新.多移动机器人系统研究发展近况[J].自动化学报,2007,33(8):785-794. 被引量：73
10AL-BATAH M S,MATISA N A,ZAMLI K Z,et al.Modified recursive least squares algorithm to train the hybrid multilayered perceptron (HMLP) network[J].Applied Soft Computing,2010,10(1):236-244.

共引文献531

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：2
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：37
3韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
4李小强,杨凯,代龙飞,夏炜豪,蔡正鑫.冷轧连退机组中央段自动控制系统开发[J].冶金自动化,2023,47(S01):121-124.
5李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：39
6张雨.基于马尔科夫过程状态转移矩阵的桥梁结构技术状态预测方法研究[J].四川水泥,2023(3):212-214. 被引量：1
7周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：5
8李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430. 被引量：1
9王雪鉴,文永明,石晓荣,张宁宁,刘洁玺.多智能体多耦合任务混合式智能决策架构设计[J].航空学报,2023,44(S02):418-425.
10刘洋,李建军.深度确定性策略梯度算法优化[J].辽宁工程技术大学学报（自然科学版）,2020(6):545-549. 被引量：1

同被引文献46

1李林恒,甘婧,曲栩,冒培培,冉斌.智能网联环境下基于安全势场理论的车辆跟驰模型[J].中国公路学报,2019,32(12):76-87. 被引量：32
2郭健,陈健,胡杨.基于小波智能模型的地铁车站基坑变形时序预测分析[J].岩土力学,2020(S01):299-304. 被引量：12
3楼东,谷树忠,钟赛香.中国海洋资源现状及海洋产业发展趋势分析[J].资源科学,2005,27(5):20-26. 被引量：103
4张静,韩立民.试论海洋产业结构的演进规律[J].中国海洋大学学报（社会科学版）,2006(6):1-3. 被引量：71
5严汝建,庞硕,孙寒冰,庞永杰.水面无人船的发展与使命(英文)[J].Journal of Marine Science and Application,2010,9(4):451-457. 被引量：72
6钟义信.人工智能的突破与科学方法的创新[J].模式识别与人工智能,2012,25(3):456-461. 被引量：54
7崔铁军,李莎莎.空间故障树与空间故障网络理论综述[J].安全与环境学报,2019,19(2):399-405. 被引量：41
8汪培庄,郭嗣琮,包研科,刘海涛.因素空间中的因素分析法[J].辽宁工程技术大学学报（自然科学版）,2014,33(7):865-870. 被引量：50
9汪培庄.因素空间与数据科学[J].辽宁工程技术大学学报（自然科学版）,2015,34(2):273-280. 被引量：34
10崔铁军,马云东.基于因素空间的煤矿安全情况区分方法的研究[J].系统工程理论与实践,2015,35(11):2891-2897. 被引量：37

引证文献4

1崔铁军,李莎莎.基于因素空间的人工智能样本选择策略[J].智能系统学报,2021,16(2):346-352. 被引量：4
2鲁良伟,李敬兆,周华平.基于DDPG算法的矿用电机车防撞及避障策略研究[J].煤炭技术,2022,41(2):184-188. 被引量：3
3宋雷震,吕东芳.DDPG深度强化学习算法在无人船目标追踪与救援中的应用[J].黑龙江大学工程学报（中英俄文）,2024,15(1):58-64.
4江安旎,杜煜,原颖,张昊,赵世昕.基于GA-TD3算法的交叉路口决策模型[J].计算机应用研究,2024,41(7):1965-1970.

二级引证文献7

1崔铁军,李莎莎.系统故障演化过程最终事件状态及发生概率研究[J].中国安全科学学报,2021,31(8):1-7. 被引量：11
2崔铁军,李莎莎.人工系统中数据–因素–算力–算法作用及相互关系研究[J].智能系统学报,2022,17(4):772-779. 被引量：8
3李永杰.基于多数据融合的智能定位传感器避障算法研究[J].自动化与仪表,2023,38(1):48-52. 被引量：2
4崔铁军,李莎莎.系统多功能状态表达式构建及其置信度研究[J].智能系统学报,2023,18(1):124-130. 被引量：6
5姜文涛,孟庆姣.自适应时空正则化的相关滤波目标跟踪[J].智能系统学报,2023,18(4):754-763.
6宋倩,蓝俊欢,罗富贵,李明珍.基于强化学习的智能车避障决策算法[J].电子设计工程,2024,32(12):181-186.
7刘莹莹,李昱衡,何江,任宇昕,董洋.基于ConvNext的无人驾驶机车运行中的障碍物检测[J].科学技术创新,2024(16):74-77.

1张弟红.提升认识独立思考——初中数学一元二次方程教学透析[J].数学大世界（中旬）,2019,0(12):32-32.
2沈黎达,李瑶,李东臣,范津津,胡潭高.复杂下垫面城市暴雨内涝汇水区划分方法研究[J].水资源与水工程学报,2019,30(6):50-58. 被引量：8
31月技术需求[J].今日科技,2020,0(1):37-39.
4宋绵,王新峰,李伟,龚磊,吕琳.人类离不开的水精灵基岩裂隙水[J].地球,2019,0(12):66-69.
5金鑫.化归思想在高中数学函数学习中的运用[J].求知导刊,2019,0(42):38-39.
6叶陈雷,徐宗学,雷晓辉,廖卫红,李鹏.基于InfoWorks的城市水系水文水动力过程耦合模拟——以福州市江北城区及东北部山区为例[J].北京师范大学学报（自然科学版）,2019,55(5):609-616. 被引量：13
7黄焕才.轴对称特性的解题应用探索[J].数学教学通讯,2019,0(35):87-88.
8章建跃,王翠巧,人民教育出版社课程教材研究所.用代数运算和函数图像研究指数函数与对数函数——人教A版“指数函数与对数函数”教材介绍[J].中学数学教学参考,2019,0(34):18-25. 被引量：2
9徐德均.例谈用导数判断数列的增减性[J].新世纪智能,2019,0(59):31-32.
10齐朝晖,国树东,卓英鹏.滑轮绳索系统中动态节点绳索单元[J].力学学报,2019,51(6):1856-1871. 被引量：5

计算机工程

2020年第1期

浏览历史

内容加载中请稍等...

基于深度确定性策略梯度的智能车汇流模型被引量：4

参考文献6

二级参考文献80

共引文献531

同被引文献46

引证文献4

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于深度确定性策略梯度的智能车汇流模型 被引量：4

参考文献6

二级参考文献80

共引文献531

同被引文献46

引证文献4

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于深度确定性策略梯度的智能车汇流模型被引量：4