RIIM:基于独立模型的在线缺失值填补被引量：3

RIIM:Real-Time Imputation Based on Individual Models

下载PDF

导出

摘要随着数据来源的不断丰富,数据的获取变得愈发容易,但质量难以得到保证,从而导致缺失值在真实数据集中普遍存在且难以避免,缺失值填补也就成为数据质量管理领域的经典问题之一。目前,大多数的缺失值填补算法均是针对静态数据提出的,并不适用于高速到达的动态数据流,且现有算法大多未同时考虑数据的稀疏性和异构性问题。基于此,文中提出了一种新的基于独立模型的在线缺失值填补算法RIIM。该算法同时考虑了数据的稀疏性和异构性问题,并结合近邻填补和回归填补的基本思想对缺失值进行有效填补。首先,针对数据的动态实时性,提出了高效的填补模型增量更新算法;其次,针对数据近邻查找时间代价高以及近邻个数难以确定的问题,提出了最优近邻自适应周期性更新策略;最后基于真实数据集通过大量实验验证了所提算法的有效性。 With the enrichment of data sources,data can be obtained easily but with low quality,resulting that the MVs are ubi-quitous and hard to avoid.Consequently,MV imputation has become one of the classical problems in the field of data quality mana-gement.However,most existing MV imputation approaches are proposed for static data,which cannot handle dynamic data streams arriving at high-speed.Moreover,they do not consider data sparsity and heterogeneity simultaneously.Therefore,a novel MV imputation approach,real-time imputation based on individual models(RIIM)is proposed.In RIIM,the MVs are effectively filled by combining the basic ideas of neighbors-based imputation and regression-based imputation with consideration of sparsity and heterogeneity of data.For the dynamic and real time of data streams,the MV imputation model is updated incrementally.Moreover,an adaptive and periodic updating strategy for optimal neighbors search is proposed to solve the problem of high time cost and hard to determine the number of neighbors.Finally,the effectiveness of the proposed RIIM is evaluated based on extensive experiments over real-world datasets.

作者李霞马茜白梅王习特李冠宇宁博 LI Xia;MA Qian;BAI Mei;WANG Xi-te;LI Guan-yu;NING Bo(School of Information Science&Technology,Dalian Maritime University,Dalian,Liaoning 116026,China)

机构地区大连海事大学信息科学技术学院

出处《计算机科学》 CSCD 北大核心 2022年第8期56-63,共8页 Computer Science

基金国家自然科学基金(62002039,61602076,61702072,61976032) 中国博士后科学基金面上项目(2017M611211,2017M621122,2019M661077) 辽宁省自然科学基金(20180540003) 赛尔网络下一代互联网技术创新项目(NGII20190902) 中央高校基本科研业务费(3132021239)。

关键词缺失值在线填补数据流稀疏性异构性 Missing value Real-time imputation Data streams Sparsity Heterogeneity

分类号 TP3-05 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献1

1于戈,谷峪,鲍玉斌,王志刚.云计算环境下的大规模图数据处理技术[J].计算机学报,2011,34(10):1753-1767. 被引量：98

二级参考文献60

1Amazon SimpleDB. http://aws, amazon, com/simpledb/, 2011-8-10.
2Connor Alexander G, Chrysanthis Panos K, Labrinidis Alexandros. Key key-value stores for efficiently processing graph data in the cloud//Proceedings of the GDM. Hannover, Germany, 2011:88-93.
3Lordanov Borislav. HyperGraphDB: A generalized graph database//Proceedings of the IWGD. JiuZhai Valley, China, 2010:25-36.
4Eifrem Emil. NOSQL: Scaling to size and scaling to complexity, http://blogs, neotechnology, com/emil/2009/11/ nosql-scaling tosize-and-scaling-to-complexity, html, 2009- 1-15.
5Wu Sai, Jiang Da-Wei, Ooi Beng Chin et al. Efficient B-tree based indexing for cloud data proeessing//Proeeedings of the VLDB. Singapore, 2010: 1207-1218.
6Wang Jin-Bao, Wu Sai, Gao Hong et al. Indexing multi dimensional data in a cloud system//Proceedings of the SIGMOD. Indianapolis, Indiana, USA, 2010: 591-602.
7Tsatsanifos George, Sacharidis Dimitris, Sellis Timos et al. MIDAS: Multi-attribute indexing for distributed architecture systems//Proceedings of the SSTD. Minneapolis, MN, USA, 2011:168-185.
8Aguilera M K, Golab W, Shah M A. A practical scalable distributed B-tree//Proceedings of the VLDB. Auckland, New Zealand, 2008: 598-609.
9Zhang Xiang-Yu, Ai Jing, Wang Zhong-Yuan, Lu Jia-Heng et al. An efficient multi-dimensional index for cloud data management//Proceedings of the CloudDB. Hong Kong, China, 2009:17-24.
10InfiniteGraph, the Distributed Graph Database. http:// www. infinitegraph, com/, 2011 -7 -29.

共引文献97

1王晟,赵壁芳.面向云计算的数据管理技术研究[J].电脑知识与技术,2012,8(5):3209-3211. 被引量：4
2谢华成,范黎林.云环境下海量非结构化信息存储技术探究[J].制造业自动化,2012,34(16):28-30. 被引量：6
3王余蓝.图形数据库Neo4j的内嵌式应用研究[J].现代电子技术,2012,35(22):36-38. 被引量：11
4李健,黄庆佳,刘一阳,苏森.云计算环境下的大规模图状数据处理任务调度算法[J].西安交通大学学报,2012,46(12):116-122. 被引量：16
5戴炳荣,宋俊典,钱俊玲.云计算环境下海量分布式数据处理协同机制的研究[J].计算机应用与软件,2013,30(1):107-110. 被引量：30
6刘树仁,宋亚奇,朱永利,王德文.基于Hadoop的智能电网状态监测数据存储研究[J].计算机科学,2013,40(1):81-84. 被引量：51
7宋亚奇,刘树仁,朱永利,王德文.云计算技术在输电线路状态监测系统中的应用[J].数学的实践与认识,2013,43(5):109-115. 被引量：3
8杨书新,徐慧琴.一种基于数据图划分的关系数据库关键词检索方法[J].江西理工大学学报,2013,34(1):79-83.
9高军,杨冬青.基于可扩展计算平台的大图数据管理[J].科研信息化技术与应用,2013,4(1):49-56.
10鲍晓地,张芳芳.大数据处理的关键技术研究[J].中国电子商务,2013(10):49-49. 被引量：3

同被引文献51

1许明夏,李长安,王志强,葛艳华,李国锋,王宁会.基于功率因数自适应的城轨辅助逆变器DPWM控制策略[J].中国电机工程学报,2021,41(S01):356-365. 被引量：2
2徐晓新,冯海洋.交易捐:平台时代的公益捐赠新模式——以公益宝贝为例[J].经济社会体制比较,2021(1):106-116. 被引量：3
3周樨平.大数据时代企业数据权益保护论[J].法学,2022(5):159-175. 被引量：96
4王先林.论滥用市场支配地位行为的法律规制——《中华人民共和国反垄断法(草案)》相关部分评析[J].法商研究,2007,24(4):10-17. 被引量：27
5王磊,张昕竹.论搜索结果操纵行为的限制竞争效应[J].财经问题研究,2012(4):30-37. 被引量：11
6郑伦幸.对标准必要专利权人拒绝许可行为的反垄断规制[J].知识产权,2016,26(7):67-74. 被引量：12
7熊鸿儒.我国数字经济发展中的平台垄断及其治理策略[J].改革,2019,0(7):52-61. 被引量：183
8孙晋,赵泽宇.互联网平台经营者市场支配地位界定的系统性重构——以《反垄断法》第18条的修订为中心[J].科技与法律,2019,0(5):76-87. 被引量：23
9华劼.欧盟数据生产者权利质疑——以知识产权制度安排为视角[J].知识产权,2020,30(1):72-78. 被引量：23
10王振东,齐威,苗义烽,苗长俊.基于云计算技术的铁路调度集中系统架构设计研究[J].铁道运输与经济,2020,42(1):38-43. 被引量：27

引证文献3

1冯晓青,李可.平台垄断数据的法律规制研究[J].知识产权与市场竞争研究,2022(1):67-105.
2常建和,姚志远,付上源.基于大数据与机车画像的货运铁路调度运行风险预警方法研究[J].大连交通大学学报,2023,44(6):14-18. 被引量：1
3宋强,杨婧,石云辉.变化规律预测下大差异电表数据异常检测[J].自动化与仪器仪表,2024(8):81-85.

二级引证文献1

1郭林,吕卫强,王晓聪,郑丹.货运铁路调度指挥大厅智能化改造——以模块化机房部署为核心的解决方案[J].运输经理世界,2024(22):68-70.

1李业棉,赵芃,杨嵛惠,王静娴,颜虹,陈方尧.队列研究中纵向缺失数据填补方法的模拟研究[J].中华流行病学杂志,2021,42(10):1889-1894. 被引量：5
2陈小杰.一种优化权重的k-近邻填补缺失值的算法研究[J].无线互联科技,2022,19(8):121-125. 被引量：1
3朱宏志,任楚岚.基于Spark的近实时增量数据更新方法[J].网络安全技术与应用,2022(4):73-76. 被引量：1
4李宝学,姚邹静,赵春晖.基于领域自适应的多源工业数据的变分填补模型[J].控制工程,2022,29(4):627-636. 被引量：1
5郑应俊,杨艺宁,舒一飞,薛阳,刘爱国,苏盛.基于边缘计算的低压用户窃电检测[J].电力系统自动化,2022,46(11):111-120. 被引量：13
6刘桂红,陈皓,管强,范洺源.居民持有商业养老保险的影响因素分析[J].三明学院学报,2022,39(3):46-57.
7吴正江,张亚宁,张真,梅秋雨,杨天.拟单层覆盖粗糙集中近似集的增量更新算法[J].计算机工程,2022,48(6):200-206. 被引量：1
8程富豪,徐泰华,陈建军,宋晶晶,杨习贝.基于顶点粒k步搜索和粗糙集的强连通分量挖掘算法[J].计算机科学,2022,49(8):97-107.

计算机科学

2022年第8期

浏览历史

内容加载中请稍等...

RIIM:基于独立模型的在线缺失值填补被引量：3

参考文献1

二级参考文献60

共引文献97

同被引文献51

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

RIIM:基于独立模型的在线缺失值填补 被引量：3

参考文献1

二级参考文献60

共引文献97

同被引文献51

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

RIIM:基于独立模型的在线缺失值填补被引量：3