基于随机森林算法的盖亚大数据清洗的研究被引量：2

An Automatic Data Cleaning Method for GPS Trajectory Data on Didi Chuxing GAIA Open Dataset Using Random Forest Algorithm

下载PDF

导出

摘要本文针对滴滴出行的盖亚开放数据集中的GPS轨迹数据,设计了一种自动数据清洗方法。该方法基于随机森林算法,用来识别盖亚开放数据集原始GPS轨迹数据中的无效数据,弱信号数据和正常数据。首先根据三类数据的数学特征选择其特征集,然后确定其最优的特征子集维度。最后,基于python的pandas和scikit-learn实现所提出的方法,并以盖亚数据集中的2016年10~11月成都市二环数据集作为样本进行了实验来验证该数据清洗方法的效果,结果表明了该方法可以有效地完成弱信号数据和无效数据的数据清洗工作。 A new data cleaning method for the GPS trajectory data on Didi Chuxing GAIA Open Dataset is developed.Random forests algorithm is employed to the identification of invalid,weak,and normal data of the Didi Chuxing GAIA Open Dataset raw data.Firstly,the feature set is selected according to the mathematical characteristics of three types of data,and then the optimal feature subset dimension is determined.Finally,to implement the proposed method,the Pandas and scikit-learn Python library are used to read and process the data and the result illustrates the effectiveness of this method.

作者张家顺

机构地区河北工业大学

出处《计算机科学与应用》 2019年第9期1747-1752,共6页 Computer Science and Application

基金河北省科技计划项目No.15456135.

关键词数据清洗机器学习随机森林

分类号 TP39 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1林栢全,肖菁.基于矩阵分解与随机森林的多准则推荐算法[J].华南师范大学学报（自然科学版）,2019,51(2):117-122. 被引量：5
2张宸宁,李国成.基于BL-SMOTE和随机森林的不平衡数据分类[J].北京信息科技大学学报（自然科学版）,2019,34(2):23-28. 被引量：2
3朱冰,李伟男,汪震,赵健,何睿,韩嘉懿.基于随机森林的驾驶人驾驶习性辨识策略[J].汽车工程,2019,41(2):213-218. 被引量：14
4刘云翔,陈斌,周子宜.一种基于随机森林的改进特征筛选算法[J].现代电子技术,2019,42(12):117-121. 被引量：15
5关晓蔷,庞继芳,梁吉业.基于类别随机化的随机森林算法[J].计算机科学,2019,46(2):196-201. 被引量：14
6郑建华,刘双印,贺超波,符志强.基于混合采样策略的改进随机森林不平衡数据分类算法[J].重庆理工大学学报（自然科学）,2019,33(7):113-123. 被引量：12
7徐乔,张霄,余绍淮,陈启浩,刘修国.综合多特征的极化SAR图像随机森林分类算法[J].遥感学报,2019,23(4):685-694. 被引量：21
8董娜,常建芳,吴爱国.基于贝叶斯模型组合的随机森林预测方法[J].湖南大学学报（自然科学版）,2019,46(2):123-130. 被引量：11
9孙悦,袁健.基于Spark的改进随机森林算法[J].电子科技,2019,32(4):60-63. 被引量：17
10尹儒,门昌骞,王文剑.一种模型决策森林算法[J].计算机科学与探索,2020,14(1):108-116. 被引量：14

二级参考文献18

1石琴,仇多洋,周洁瑜.基于组合聚类法的行驶工况构建与精度分析[J].汽车工程,2012,34(2):164-169. 被引量：39
2夏卫雷,王立松.基于MapReduce的并行蚁群算法研究与实现[J].电子科技,2013,26(2):146-149. 被引量：9
3姚登举,杨静,詹晓娟.基于随机森林的特征选择算法[J].吉林大学学报（工学版）,2014,44(1):137-141. 被引量：244
4朱为盛,王鹏.基于Hadoop云计算平台的大规模图像检索方案[J].计算机应用,2014,34(3):695-699. 被引量：27
5李勇,刘战东,张海军.不平衡数据的集成分类算法综述[J].计算机应用研究,2014,31(5):1287-1291. 被引量：73
6秦文哲,陈进,董力.大数据背景下医学数据挖掘的研究进展及应用[J].中国胸心血管外科临床杂志,2016,23(1):55-60. 被引量：53
7孙勋,黄平平,涂尚坦,杨祥立.利用多特征融合和集成学习的极化SAR图像分类[J].雷达学报（中英文）,2016,5(6):692-700. 被引量：10
8柳培忠,洪铭,黄德天,骆炎民,王守觉.基于ADASYN与AdaBoostSVM相结合的不平衡分类算法[J].北京工业大学学报,2017,43(3):368-375. 被引量：10
9陈能美,刘晓静.基于随机森林算法的信道场景分类模型研究[J].重庆理工大学学报（自然科学）,2017,31(4):134-140. 被引量：5
10路志英,任一墨,葛路琨.基于样条估计分位数回归的光伏功率回归模型[J].湖南大学学报（自然科学版）,2017,44(10):91-98. 被引量：4

共引文献110

1刘启超,徐红,林卓胜,朱嘉健,刘慧琳,吴欣,冯跃.基于加权软投票融合模型的脉象信号识别研究[J].世界科学技术-中医药现代化,2023,25(8):2883-2891. 被引量：1
2彭岩,赵梓如,吴婷娴,王洁.PM2.5浓度预测与影响因素分析[J].北京邮电大学学报,2019,42(6):162-169. 被引量：7
3朱冰,李伟男,赵健,韩嘉懿.考虑驾驶人驾驶习性的自适应车道偏离预警策略[J].同济大学学报（自然科学版）,2019,47(S01):171-177. 被引量：8
4张小平.周总理是中国少数民族语言广播事业的奠基人[J].中国广播电视学刊,2000(3):52-52. 被引量：1
5胡浔惠,葛王飞,段文强,郑通.一种应用随机森林的代码混淆路径分支技术[J].信息技术,2019,43(8):71-73. 被引量：1
6刘子桦,马若炎.基于Python关于世界自杀率影响因素的分析以及机器学习预测[J].电子技术与软件工程,2019(17):150-151.
7章文俊,韩晓龙.基于交叉验证网格寻优随机森林的黑产用户识别方法[J].科技视界,2019,0(28):1-3. 被引量：2
8张国斌,张叔禹,刘永江,郭瑞君.基于大数据与人工智能技术的电力在线技术监督平台建设方案[J].热力发电,2019,48(9):94-100. 被引量：37
9刘莹莹,卢长春.数据新闻发展趋势探讨——基于对2018年数据新闻奖获奖作品的分析[J].电视研究,2019,0(9):29-31.
10林文怡,宛小燕,刘元元.常见新近决策树算法及其在卫生领域中的应用[J].现代预防医学,2019,46(23):4233-4237. 被引量：8

同被引文献21

1郝爽,李国良,冯建华,王宁.结构化数据清洗技术综述[J].清华大学学报（自然科学版）,2018,58(12):1037-1050. 被引量：68
2蒲斌,李浩,卢晨阳,王治辉,刘华.基于神经网络的海量GPS数据交通流量预测[J].云南大学学报（自然科学版）,2019,41(1):53-60. 被引量：6
3张晋雁,陶宏才.回声状态网络研究[J].成都信息工程学院学报,2015,30(6):546-550. 被引量：4
4曲朝阳,张艺竞,王永文,赵莹.基于Spark框架的能源互联网电力能源大数据清洗模型[J].电测与仪表,2018,55(2):39-44. 被引量：25
5吴鹏,张叙,路霞.基于模型检测方法的中文专利法律状态数据清洗研究[J].情报理论与实践,2018,41(3):49-56. 被引量：7
6胡阳,乔依林.基于置信等效边界模型的风功率数据清洗方法[J].电力系统自动化,2018,42(15):18-23. 被引量：45
7张海鹏,杨宏业,邬鑫珏,王葆元.基于公交车GPS数据的短时交通流预测研究[J].内蒙古工业大学学报（自然科学版）,2018,37(1):75-80. 被引量：3
8孙源.基于Word2Vec的SCI地址字段数据清洗方法研究[J].情报杂志,2019,38(2):195-200. 被引量：15
9刘耀杰,刘独玉.基于不平衡数据集的改进随机森林算法研究[J].计算机技术与发展,2019,29(6):100-104. 被引量：10
10孙纪舟,李建中.基于能量过滤的不确定时间序列数据清洗方法[J].智能计算机与应用,2019,9(4):1-5. 被引量：3

引证文献2

1钟少恒,曹小冬,邱细虾,刘智聪.基于随机森林算法的通信大数据重复清洗方法[J].信息技术,2022,46(4):159-164. 被引量：4
2张家顺.基于改进回声状态网络的盖亚大数据短时交通状态预测研究[J].数据挖掘,2019,9(4):153-158.

二级引证文献4

1周杨,王春林,郭锐.基于随机森林算法的数据中心运维异常告警方法[J].现代电子技术,2023,46(8):143-148. 被引量：6
2唐磊,陈璇,王庆宇.基于Hough变换的企业财务重复数据批量剔除方法[J].河北北方学院学报（自然科学版）,2023,39(3):22-26.
3萧阳,王鑫章,彭程,陈俊锋,蒋涛.基于改进随机森林的海上油气生产设备运行数据清洗方法[J].当代化工研究,2023(12):155-157. 被引量：2
4李梅琴.基于随机森林算法的虚拟仿真实验室仪器故障预警方法[J].山东理工大学学报（自然科学版）,2023,37(6):63-68. 被引量：2

1周庭华.论斯皮瓦克异质伦理翻译思想与实践[J].五邑大学学报（社会科学版）,2019,21(3):73-78. 被引量：1
2周林,吴章树.对医疗器械的清洗工作进行强化管理对院内感染发生率的影响[J].当代医药论丛,2019,17(14):1-2. 被引量：1
3胡正君,曾文,刘颖.大数据时代中文学术期刊开放数据的思考[J].科技与出版,2019(8):115-119. 被引量：2
4胡冠琳(译).简析拉丁美洲——来自巴西的噪音[J].国际贸易译丛,2019,0(4):34-38.
5周仲海,陈慧,胡凯莉.基于随机森林算法的行业特色大学教师教学能力研究[J].兵团教育学院学报,2019,29(4):36-39.
6张洋.一种基于Logicboost的软件缺陷预测方法[J].软件,2019,40(8):79-83. 被引量：1
7危明铸,麦伟杰,袁峰,沈凤山.基于机器学习的企业运行风险研究[J].软件,2019,40(8):29-37. 被引量：2
8刘孟迪,徐连诚,伊静,黄杰.基于信息共享的二次特征选择算法[J].计算机工程与设计,2019,40(9):2517-2522. 被引量：2
9李俊杰,陈武喝.基于北斗卫星的GPS轨迹数据异常双频定位方法[J].计算机测量与控制,2019,27(8):222-226. 被引量：6
10董尹,刘千里.供应链风险识别中的弱信号介入、感知机制与观测方法研究[J].情报工程,2019,5(3):49-64. 被引量：9

计算机科学与应用

2019年第9期

浏览历史

内容加载中请稍等...

基于随机森林算法的盖亚大数据清洗的研究被引量：2

参考文献10

二级参考文献18

共引文献110

同被引文献21

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于随机森林算法的盖亚大数据清洗的研究 被引量：2

参考文献10

二级参考文献18

共引文献110

同被引文献21

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于随机森林算法的盖亚大数据清洗的研究被引量：2