高速公路事故频发,而以往研究未能充分揭示交通流动态特性对事故类型与严重程度的影响。为此研究了基于动态交通流数据的高速公路事故类型与严重程度的预测方法。从高速公路门架数据中提取流量、密度、速度等交通流数据,同时考虑时间特...高速公路事故频发,而以往研究未能充分揭示交通流动态特性对事故类型与严重程度的影响。为此研究了基于动态交通流数据的高速公路事故类型与严重程度的预测方法。从高速公路门架数据中提取流量、密度、速度等交通流数据,同时考虑时间特征以及时间和空间不均匀性特征的数据,与事故数据相匹配构成全样本。建立了基于极端梯度提升树(extrem Gradient Boosting,XGBoost)算法的预测模型,预测事故是否发生、事故类型以及事故严重程度。分别考虑追尾事故和其他事故2种事故类型、有人员伤亡和仅财产损失2种事故严重程度,模型的结果表明:(1)上下游速度差大、低速、路段车流量大且频繁分流、合流条件下交通事故风险较高;(2)低速、路段车辆多且合流、分流交通量大、上下游速度差大的情况下发生追尾事故的风险更高;(3)路段车流量较少且追尾事故发生于周末或夜间可能会增大事故严重程度。将常用机器学习算法与XGBoost算法的预测效果进行对比,XGBoost事故类型预测模型与事故严重程度预测模型的ROC曲线下面积(Area Under Curve,AUC)分别达到了0.76和0.88——相比于序列Logistic、高斯朴素贝叶斯、线性SVM、随机森林以及神经网络等其他常用算法,平均分别提升了0.08和0.24。这表明基于XGBoost建立的模型具有较好的预测性能。研究结果为高速公路路段实时交通流状态预警提供了可靠手段,进而可以提升高速公路行车安全。展开更多
传统的C4.5分类决策树作为数据分类算法具有计算简单、准确率高的优势,由于飞机具有参数多和数据量大的因素,C4.5算法需要对连续属性值进行多次顺序扫描,分类时间效率较低。针对此问题,提出近似粗糙集和决策分辨力分类算法,利用粗糙集...传统的C4.5分类决策树作为数据分类算法具有计算简单、准确率高的优势,由于飞机具有参数多和数据量大的因素,C4.5算法需要对连续属性值进行多次顺序扫描,分类时间效率较低。针对此问题,提出近似粗糙集和决策分辨力分类算法,利用粗糙集近似度来判断属性划分样本数据能力,并将其代入到决策分辨力算法中,以决策分辨力最大的属性作为分裂特征建立分类决策树。算法在保证分类决策准确率的同时,提高计算效率并减少过拟合问题的产生。通过对UCI(University of California, Irvine)数据集上多组数据样本的对比实验分析,验证了本文提出PSRP(rough set and resolving power)的算法在保证相同准确率的情况下,平均计算时间效率提升约10%,可靠性提升2%。展开更多
文摘高速公路事故频发,而以往研究未能充分揭示交通流动态特性对事故类型与严重程度的影响。为此研究了基于动态交通流数据的高速公路事故类型与严重程度的预测方法。从高速公路门架数据中提取流量、密度、速度等交通流数据,同时考虑时间特征以及时间和空间不均匀性特征的数据,与事故数据相匹配构成全样本。建立了基于极端梯度提升树(extrem Gradient Boosting,XGBoost)算法的预测模型,预测事故是否发生、事故类型以及事故严重程度。分别考虑追尾事故和其他事故2种事故类型、有人员伤亡和仅财产损失2种事故严重程度,模型的结果表明:(1)上下游速度差大、低速、路段车流量大且频繁分流、合流条件下交通事故风险较高;(2)低速、路段车辆多且合流、分流交通量大、上下游速度差大的情况下发生追尾事故的风险更高;(3)路段车流量较少且追尾事故发生于周末或夜间可能会增大事故严重程度。将常用机器学习算法与XGBoost算法的预测效果进行对比,XGBoost事故类型预测模型与事故严重程度预测模型的ROC曲线下面积(Area Under Curve,AUC)分别达到了0.76和0.88——相比于序列Logistic、高斯朴素贝叶斯、线性SVM、随机森林以及神经网络等其他常用算法,平均分别提升了0.08和0.24。这表明基于XGBoost建立的模型具有较好的预测性能。研究结果为高速公路路段实时交通流状态预警提供了可靠手段,进而可以提升高速公路行车安全。
文摘传统的C4.5分类决策树作为数据分类算法具有计算简单、准确率高的优势,由于飞机具有参数多和数据量大的因素,C4.5算法需要对连续属性值进行多次顺序扫描,分类时间效率较低。针对此问题,提出近似粗糙集和决策分辨力分类算法,利用粗糙集近似度来判断属性划分样本数据能力,并将其代入到决策分辨力算法中,以决策分辨力最大的属性作为分裂特征建立分类决策树。算法在保证分类决策准确率的同时,提高计算效率并减少过拟合问题的产生。通过对UCI(University of California, Irvine)数据集上多组数据样本的对比实验分析,验证了本文提出PSRP(rough set and resolving power)的算法在保证相同准确率的情况下,平均计算时间效率提升约10%,可靠性提升2%。