连续数据环境下的道路交通事故风险预测模型被引量：19

Road Crash Risk Prediction Model for Continuous Streaming Data Environment

导出

摘要针对现有研究多基于病例对照的欠采样方法,即每起事故从连续交通流数据中按一定比例抽取对照的非事故数据构建模型,而该类模型在连续数据环境中的预测精度存在缺陷的状况,对城市交通连续观测并动态调控的技术环境(简称连续数据环境)开展道路交通事故风险预测模型构建研究。首先提出基于全样本交通流数据,结合"调整事故分类阈值"的方法解决事故风险预测研究中的非平衡数据分类问题;而后采用上海市城市快速路2014年5,6月的线圈检测交通流数据及历史事故数据开展实证研究,以受试者工作特征曲线下面积为评价指标,对比基于全样本和抽样样本构建的常用事故风险预测模型(逻辑回归、随机森林)的整体预测能力;以灵敏度和特异度的几何均数为评价指标,对比3种分类阈值计算方式(约登指数法、事故占比法和交叉点法)对事故/非事故综合预测精度的影响。结果表明:在连续数据环境下,采用全样本数据建模能使模型整体预测能力提高13.06%;基于约登指数法进行分类阈值计算可使模型的事故/非事故综合预测精度最佳。 This paper describes research on a road crash risk prediction model for a continuous observation and dynamic management environment （called a continuous data environment） in an active traffic management （ATM） system. A traffic crash is an event with a small probability, and the ratio of crashes to non-crash cases in crash risk prediction research is not coordinated, and therefore poses the issue of an imbalanced data classific ation. To build a crash risk prediction model, existing research has been mostly based on a ＂matched case-control＂ under-sampling method to extract non-crash cases from continuous traffic flow data at a certain proportion- thus, the prediction accuracy of the model in a continuous data environment is inadequate. The research proposes utilizing a full set of traffic flow data to build a model and avoid an imbalanced data classification by ＂adjusting the classification threshold to discriminate crashes from non-crashes. ＂ The loop detector data and crash history data of the Shanghai expressway system from May to June 2014 were used experimentally. The area under an ROC curve （AUC） was used as an index to compare the commonly used crash risk prediction model （using logistic regression and random forest algorithms） based on the full set of data and the sample data respectively. The influence of three different classification thresholds （Youden＇s index, the crash occupancy, and the cross point method） on the comprehensive prediction accuracy of a crash and non-crash was compared using the geometric mean of sensitivity and specificity as the indices. The results show that, in a continuous data environment, the model with a full set of data improves the overall prediction capability by 13.06%. Youden＇s index method for the classification threshold calculation increases the optimal comprehensive prediction accuracy of crash and non-crash cases.

作者高珍高屹余荣杰黄智强王雪松 GAO Zhen;GAO Yi;YU Rong-jie;HUANG Zhi-qiang;WANG Xue-song(School of Software Engineering, Tongji University, Shanghai 201804, China;Key Laboratory of Road and Traffic Engineering, Ministry of Education, Tongji University, Shanghai 201804, China)

机构地区同济大学软件学院同济大学道路与交通工程教育部重点实验室

出处《中国公路学报》 EI CAS CSCD 北大核心 2018年第4期280-287,共8页 China Journal of Highway and Transport

基金国家自然科学基金项目(71401127 51522810) 上海市科学技术委员会项目(15DZ1204800)

关键词交通工程连续数据环境事故风险预测模型非平衡数据二分类阈值城市快速路 traffic engineering continuous data environment crash risk prediction model imbalanced data binary classification threshold urban expressway

分类号 U491.31 [交通运输工程—交通运输规划与管理]

引文网络
相关文献

参考文献8

1潘轶铠,常沛纹,杜鹏程.2009～2014年上海市高/快速路网运行特征分析[J].交通与运输,2015,31(2):19-21. 被引量：3
2陆化普,李瑞敏.城市智能交通系统的发展现状与趋势[J].工程研究（跨学科视野中的工程）,2014,6(1):6-19. 被引量：142
3钱洪波,贺广南.非平衡类数据分类概述[J].计算机工程与科学,2010,32(5):85-88. 被引量：17
4徐铖铖,刘攀,王炜,李志斌.恶劣天气下高速公路实时事故风险预测模型[J].吉林大学学报（工学版）,2013,43(1):68-73. 被引量：23
5徐铖铖,刘攀,王炜,蒋璇.基于判别分析的高速公路交通安全实时评价指标[J].东南大学学报（自然科学版）,2012,42(3):555-559. 被引量：21
6杨奎,余荣杰,王雪松.基于车道集计交通流数据的事故风险评估分析[J].同济大学学报（自然科学版）,2016,44(10):1567-1572. 被引量：11
7孙剑,孙杰.城市快速路实时交通流运行安全主动风险评估[J].同济大学学报（自然科学版）,2014,42(6):873-879. 被引量：23
8方匡南,吴见彬,朱建平,谢邦昌.随机森林方法研究综述[J].统计与信息论坛,2011,26(3):32-38. 被引量：681

二级参考文献138

1刘微,罗林开,王华珍.基于随机森林的基金重仓股预测[J].福州大学学报（自然科学版）,2008,36(S1):134-139. 被引量：8
2钟连德,孙小端,陈永胜,贺玉龙,张杰.高速公路V/C与事故率关系研究[J].北京工业大学学报,2007,33(1):37-40. 被引量：20
3林成德,彭国兰.随机森林在企业信用评估指标体系确定中的应用[J].厦门大学学报（自然科学版）,2007,46(2):199-203. 被引量：37
4Weiss G M. Mining with Rarity:A Unifying Framework[J]. SIGKDD Explorations, 2004,6(1) :7-19.
5Weiss G M. Learning with Rare Cases and Small Disjunets [C]//Proc of the 12th Int'l Conf on Machine Learning, 1995:558-565.
6Japkowicz N, Stephen S. The Class Imbalance Problem: A Systematic Study[J]. Intelligent Data Analysis Journal, 2002,6(5) :429 450.
7Chawla N V, Bowyer K W, Hall I. O, et al. SMOTE: Synthetic Minority Over-Sampling Technique[J]. Journal of Artificial Intelligence Research, 2002,16(6) : 321-357.
8Kubat M, Matwin S. Addressing the Curse of Imbalanced Data Sets:One Sided Sampling[C]//Proc of the 14th Int'l Conf on Machine Learning, 1997:179-186.
9Chawla N, Lazarevic A, Hall L, et al. SMOTEBoost: Improving Prcdiction of the Minority Class in Boosting[C]// Proc of the 7th European Conf on Principles and Practice of Knowledge Discovery in Databases, 2003 : 107-119.
10Fan W, Stofol S, Zhang J X. AdaCost: Misclassification Cost Sensitive Boosting[C]//Proc of the 16th Int'l Conf on Machine Learning, 1999: 97-105.

共引文献904

1郑伟,戴伊宁,孙楠楠,尹乔乔,吴青青,惠田辰,吴文昊,黄海军,童永喜,黄益澄,汪明珊,陈美娟,张家杰,严蓉,高海女,潘红英.应用随机森林模型和Logistic回归模型分析COVID-19的影响因素[J].预防医学,2021,33(7):722-725. 被引量：1
2郝瑞敏,李勇,刘夫永.系统视角下交通工具创新设计维度研究[J].装饰,2020(11):126-127.
3杨海波,徐晓东.基于交通精细化设计理念的路口监测平台研究与应用[J].智能城市,2020(23):1-2. 被引量：1
4戢晓峰,谢世坤,覃文文,杨文臣,胡澄宇.基于轨迹数据的山区危险性弯道路段交通事故风险动态预测[J].中国公路学报,2022,35(4):277-285. 被引量：22
5袁鸷慧,聂胜,张合兵,王成,王宏涛,习晓环.GEDI地面高程和森林冠层高度的精度评价与影响分析[J].遥感技术与应用,2022,37(5):1056-1070. 被引量：2
6谢春,许伟.基于随机森林回归算法的锅炉沾污因数预测方法[J].上海电气技术,2022,15(1):29-32. 被引量：1
7王仁超,朱品光.基于随机森林回归方法的爆破块度预测模型研究[J].水力发电学报,2020,39(1):89-101. 被引量：23
8杨龙,王闻娟,覃哲,古悦璇.中国大学生气候认知与低碳行为及其影响因素研究——基于随机森林模型分析[J].文化与传播,2022,11(2):6-15. 被引量：1
9饶贵川,王雅楠,华伟平,林维晟,潘俊忠,廖佩莹.环境因子对人工森林蓄积量影响的机器学习分析[J].林业科技通讯,2023(12):58-63.
10吴伟令,徐宁,王学凯.面向准全天候通行的广义车路协同系统建设思考[J].中国交通信息化,2024(S01):117-119.

同被引文献176

1杜豫川,刘成龙,吴荻非,赵聪.新一代智慧高速公路系统架构设计[J].中国公路学报,2022,35(4):203-214. 被引量：48
2杨捷,李沛霖,罗成臣,洪锋.基于数据挖掘的电网用户行为分析[J].云南大学学报（自然科学版）,2020,42(S02):38-43. 被引量：23
3王锐,高磊.智慧高速主动交通管控策略探究[J].中国交通信息化,2022(S01):109-111. 被引量：3
4Maryam Parvareh,Asrin Karimi,Satar Rezaei,Abraha Woldemichael,Sairan Nili,Bijan Nouri,Nader Esmail Nasab.Assessment and prediction of road accident injuries trend using time-series models in Kurdistan[J].Burns & Trauma,2018,6(1):55-62. 被引量：7
5李守业.也谈标准差系数[J].统计,1988,3(5):32-33. 被引量：2
6刘志强,王兆华,钱卫东.基于速度的交通事故分析[J].中国安全科学学报,2005,15(11):35-38. 被引量：53
7王涛,高自友,赵小梅.多速度差模型及稳定性分析[J].物理学报,2006,55(2):634-640. 被引量：71
8李铁洪,吴华金.长直线接小半径曲线公路交通事故成因及预防对策[J].中国公路学报,2007,20(1):35-40. 被引量：39
9张生瑞,马壮林,石强.高速公路隧道群交通事故分布特点及预防对策[J].长安大学学报（自然科学版）,2007,27(1):63-66. 被引量：75
10钟连德,孙小端,陈永胜,张杰,张国巍.高速公路大、小车速度差与事故率的关系[J].北京工业大学学报,2007,33(2):185-188. 被引量：52

引证文献19

1戢晓峰,谢世坤,覃文文,杨文臣,胡澄宇.基于轨迹数据的山区危险性弯道路段交通事故风险动态预测[J].中国公路学报,2022,35(4):277-285. 被引量：22
2王蕊,王琴,韩晓坤,王露婉,何华阳.基于数据挖掘的公路交通逆反射量值计量技术[J].长安大学学报（自然科学版）,2023,43(3):76-84.
3戴学臻,苑仁腾,周亚男,吴智伟.城市快速路车流运行状态安全性评价[J].长安大学学报（自然科学版）,2020,40(2):90-98. 被引量：7
4郝亮,杨濯丞,张恒博.高速公路交通事故对交通流运行状态的影响[J].公路交通科技,2022,39(S01):102-108. 被引量：1
5马聪,张生瑞,马壮林,张祎祎.高速公路交通事故非线性负二项预测模型[J].中国公路学报,2018,31(11):176-185. 被引量：22
6董治,王欢,董小林,刘珊.基于熵权可拓物元模型的公路项目社会稳定风险评估方法[J].中国公路学报,2018,31(9):191-198. 被引量：26
7许林新,苑仁腾,王小双.基于模糊层次分析的道路交通安全评价研究[J].北方交通,2019(3):31-34. 被引量：12
8龚祯.基于复杂网络理论的电商供应链风险预测方法研究[J].西南师范大学学报（自然科学版）,2021,46(3):39-44. 被引量：7
9马新露,樊博,陈诗敖,马筱栎,雷小诗.基于实时交通流的事故风险评估与分析模型[J].华南理工大学学报（自然科学版）,2021,49(8):19-25. 被引量：3
10陈丰,张婷,黄雅迪,陈慈河,张曙光,吕明.越江越海隧道入口段追尾事故风险预测模型研究[J].交通运输系统工程与信息,2021,21(6):167-175. 被引量：12

二级引证文献150

1吕能超,王玉刚,周颖,吴超仲.道路交通安全分析与评价方法综述[J].中国公路学报,2023,36(4):183-201. 被引量：15
2戢晓峰,谢世坤,覃文文,杨文臣,胡澄宇.基于轨迹数据的山区危险性弯道路段交通事故风险动态预测[J].中国公路学报,2022,35(4):277-285. 被引量：22
3姚成北,章玉,岳通.基于ETC门架数据的高速公路运行状态识别[J].中国交通信息化,2023(S01):35-39. 被引量：1
4郝亮,杨濯丞,张恒博.高速公路交通事故对交通流运行状态的影响[J].公路交通科技,2022,39(S01):102-108. 被引量：1
5杨延新.基于KNN算法的公路施工风险判别[J].资源信息与工程,2019,34(2):137-138.
6曾丽萍,谷红霞,周莹.基于层次分析法的足球俱乐部综合评价[J].价值工程,2019,38(17):90-93.
7田山山,田莉,赖延年,赵媛劼,魏朗,周文财.针对营运班线的公路客运安全管理水平评价研究[J].重庆理工大学学报（自然科学）,2019,33(7):253-260.
8吕录娜,马俊,王攀科.基于综合集成赋权物元模型的健康综合评价[J].水利规划与设计,2019,0(8):23-26. 被引量：6
9徐洪亮.高速公路拌合站转换道路安全性评价研究[J].科学技术创新,2019(25):114-115.
10杨高升,张梦雨.建筑工人—岗位安全匹配研究[J].工程管理学报,2019,33(4):138-142. 被引量：2

1高燕,赵娜.基于控制系统状态观测器设计的算法分析[J].河北北方学院学报（自然科学版）,2017,33(5):20-22.
2时明.高校学报刊号设立与分类的思考[J].菏泽师专学报,1991(3):65-66.
3李爱光,周康,孙孟良,田国欣,马红军,王雪.血清PCT及D-D检测在急诊脓毒症患者病情以及预后的评估中的价值[J].临床肺科杂志,2018,23(5):828-831. 被引量：16
4黄利华,赵晓华,李洋,荣建.快速路复杂桥形标志优化设置方法[J].中国公路学报,2018,31(4):139-146. 被引量：3
5王晓磊,郭向红,孙西欢,马娟娟,雷涛,曹鹭.蓄水坑灌苹果园冬季土壤温度分布动态预测模型[J].节水灌溉,2017(12):13-16. 被引量：1
6梁东旺,杨欢.创设情境构建模型聚焦探究——基于化学学科核心素养的《硫和氮的氧化物》(第一课时)教学设计[J].中学教学参考,2018,0(11):61-63. 被引量：6
7刘臻,蔡宏达,曾凯,林献忠,林财珠.靶控输注瑞芬太尼对老年患者七氟醚MAC_(BAR)的影响[J].福建医科大学学报,2017,51(4):253-255. 被引量：5
8王红丹.环境监测数据均数的估算[J].上海环境科学,1991,10(10):32-33.
9赵晓雷.浅论会计电算化对医院内部会计控制的影响[J].科技创新导报,2017,14(34):183-184. 被引量：1
10周海,朱想,金山红,朱婷婷,张雪松,魏海坤.超短期太阳辐照度多模型预测[J].中国科技论文,2017,12(23):2695-2700. 被引量：4

中国公路学报

2018年第4期

浏览历史

内容加载中请稍等...

连续数据环境下的道路交通事故风险预测模型被引量：19

参考文献8

二级参考文献138

共引文献904

同被引文献176

引证文献19

二级引证文献150

相关作者

相关机构

相关主题

浏览历史

连续数据环境下的道路交通事故风险预测模型 被引量：19

参考文献8

二级参考文献138

共引文献904

同被引文献176

引证文献19

二级引证文献150

相关作者

相关机构

相关主题

浏览历史

连续数据环境下的道路交通事故风险预测模型被引量：19