深入分析交通事故数据可以为规避事故发生、降低事故严重程度提供重要理论依据,然而,在事故数据采集、传输、存储过程中往往会产生数据缺失,导致统计分析结果的准确性下降、模型的误判风险上升。本文以芝加哥2016—2021年的101452条追...深入分析交通事故数据可以为规避事故发生、降低事故严重程度提供重要理论依据,然而,在事故数据采集、传输、存储过程中往往会产生数据缺失,导致统计分析结果的准确性下降、模型的误判风险上升。本文以芝加哥2016—2021年的101452条追尾事故数据为研究对象,将原始数据按照7∶3随机分为训练集和测试集。在训练集数据上,利用生成式插补网络(Generative Adversarial Imputation Network,GAIN)实现对缺失数据的填补。为对比不同数据填补方法的效果,同时选择多重插补(Multiple Imputation by Chained Equations,MICE)算法、期望最大化(Expectation Maximization,EM)填充算法、缺失森林(MissForest)算法和K最近邻(K-Nearest Neighbor,KNN)算法对同一数据集进行数据填补,并基于填补前后变量方差变化比较不同填补算法对数据变异性的影响。在完成数据填补的基础上,构建LightGBM三分类事故严重程度影响因素分析模型。使用原始训练集数据,以及填补后的训练集数据分别训练模型,并使用未经填补的测试集数据检验模型预测效果。结果表明,经缺失值填补后,模型性能得到一定改善,使用GAIN填补数据集训练的模型,相较于原始数据训练的模型,准确率提高了6.84%,F1提高了4.61%,AUC(Area Under the Curve)提高了10.09%,且改善效果优于其他4种填补方法。展开更多
RFID数据采集过程中漏读现象频频发生,降低了RFID(radio frequency identification)应用中查询结果的准确性.目前解决漏读问题的算法主要是以RFID原始读数为粒度,并基于标签自身历史读数进行窗口平滑,这种作法会填补许多与查询无关的冗...RFID数据采集过程中漏读现象频频发生,降低了RFID(radio frequency identification)应用中查询结果的准确性.目前解决漏读问题的算法主要是以RFID原始读数为粒度,并基于标签自身历史读数进行窗口平滑,这种作法会填补许多与查询无关的冗余数据,并且在多逻辑区域参与的复杂应用中,填补准确率较差.为解决上述问题,首次将RFID数据从数据层抽象到逻辑区域层作为处理的粒度,提出3种基于动态概率路径事件模型的数据填补算法,通过挖掘已知的区域事件的顺序相关性来对后续发生的事件进行判断和填补.进一步,增加对时间因素的考虑,对概率路径事件模型进行扩展.大量实验证明,提出的各个算法在不同的情况下有着不同的性能优势,并且在精简性和准确性上要高于现有的策略.展开更多
文摘深入分析交通事故数据可以为规避事故发生、降低事故严重程度提供重要理论依据,然而,在事故数据采集、传输、存储过程中往往会产生数据缺失,导致统计分析结果的准确性下降、模型的误判风险上升。本文以芝加哥2016—2021年的101452条追尾事故数据为研究对象,将原始数据按照7∶3随机分为训练集和测试集。在训练集数据上,利用生成式插补网络(Generative Adversarial Imputation Network,GAIN)实现对缺失数据的填补。为对比不同数据填补方法的效果,同时选择多重插补(Multiple Imputation by Chained Equations,MICE)算法、期望最大化(Expectation Maximization,EM)填充算法、缺失森林(MissForest)算法和K最近邻(K-Nearest Neighbor,KNN)算法对同一数据集进行数据填补,并基于填补前后变量方差变化比较不同填补算法对数据变异性的影响。在完成数据填补的基础上,构建LightGBM三分类事故严重程度影响因素分析模型。使用原始训练集数据,以及填补后的训练集数据分别训练模型,并使用未经填补的测试集数据检验模型预测效果。结果表明,经缺失值填补后,模型性能得到一定改善,使用GAIN填补数据集训练的模型,相较于原始数据训练的模型,准确率提高了6.84%,F1提高了4.61%,AUC(Area Under the Curve)提高了10.09%,且改善效果优于其他4种填补方法。
文摘RFID数据采集过程中漏读现象频频发生,降低了RFID(radio frequency identification)应用中查询结果的准确性.目前解决漏读问题的算法主要是以RFID原始读数为粒度,并基于标签自身历史读数进行窗口平滑,这种作法会填补许多与查询无关的冗余数据,并且在多逻辑区域参与的复杂应用中,填补准确率较差.为解决上述问题,首次将RFID数据从数据层抽象到逻辑区域层作为处理的粒度,提出3种基于动态概率路径事件模型的数据填补算法,通过挖掘已知的区域事件的顺序相关性来对后续发生的事件进行判断和填补.进一步,增加对时间因素的考虑,对概率路径事件模型进行扩展.大量实验证明,提出的各个算法在不同的情况下有着不同的性能优势,并且在精简性和准确性上要高于现有的策略.