有效解决数据缺失问题的聚集查询算法被引量：2

Aggregation query processing algorithm for effective solving data missing problem

下载PDF

导出

摘要近年来,工业界和学术界面临着非常严重的数据缺失问题,缺失值极大降低了数据可用性。现有的缺失值填充技术需要较大的时间开销,很难满足大数据查询实时性的需求,为此,研究在有缺失值的情况下高效处理聚集查询,将基于采样的近似聚集查询处理与缺失值填充技术有效的结合,快速返回满足用户需求的聚集结果。采用基于块(block-level)的采样策略,在采集到的样本上进行缺失值填充,并根据缺失值填充的结果重构得到聚集结果的无偏估计。真实数据集和合成数据集上的实验结果表明,该文的方法比当前最好的方法在保证相同精度的前提下,大大提升了查询效率。 Recently, both industrial and academic worlds suffer from the problem of incomplete data. Incomplete data （missing value） significantly reduces the value of data. Existing missing data imputation techniques with high time complexity hardly meet the requirements of real-time applications in the big data era. This paper focuses on how to efficiently evaluate aggregation queries on incomplete data. Specifically, missing data imputation techniques are integrated with the sample-based approximate query processing. Besides, a block-level sampling strategy is adoptd to speed up the query processing. All missing values are imputed in the sample and an unbiased estimator of the truth aggregate result is derived. Experiments on both real dataset and synthetic dataset show that the method can produce significant improvements in speed while providing good quality answer.

作者孙舟田贺平潘鸣宇王伟贤张禄陈光 SUN Zhou;TIAN Heping;PAN Mingyu;WANG Weixian;ZHANG Lu;CHEN Guang(State Grid Beijing Electric Power Company,Beijing 100075,China;NARI Group,Beijing 102299,China)

机构地区国网北京电力公司南瑞集团

出处《计算机工程与应用》 CSCD 北大核心 2018年第24期72-78,共7页 Computer Engineering and Applications

基金国家电网公司科技项目

关键词缺失值填充聚集查询块采样 incomplete data aggregate query block sampling

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1陈肇强,李佳俊,蒋川,刘海龙,陈群,李战怀.基于上下文感知实体排序的缺失数据修复方法[J].计算机学报,2015,38(9):1755-1766. 被引量：3
2杨东华,李宁宁,王宏志,李建中,高宏.基于任务合并的并行大数据清洗过程优化[J].计算机学报,2016,39(1):97-108. 被引量：47

二级参考文献27

1金连,王宏志,黄沈滨,高宏.基于Map-Reduce的大数据缺失值填充算法[J].计算机研究与发展,2013,50(S1):312-321. 被引量：18
2霍然,王宏志,朱鎔,李建中,高宏.基于Map-Reduce的大数据实体识别算法[J].计算机研究与发展,2013,50(S2):170-179. 被引量：9
3Fan W, Geerts F. Foundations of data quality management. Synthesis Lectures on Data Management, 2012, 4(5): 1-217.
4Dumais S, Banko M, Brill E, et al. Web question answering: Is more always better? //Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Tampere , Finland, 2002: 291-298.
5Li X, Meng W, Yu C. T-verifier: Verifying truthfulness of fact statements//Proceedings of the 2011 IEEE 27th International Conference on Data Engineering (lCDE). Hannover, Germany, 2011: 63-74.
6Page L, Brin S, Motwani R, et al. The pagerank citation ranking: Bringing order to the web. Stanford InfoLab, California, USA: Technical Report: 422, 1999.
7Grzymala-BusseJ W, Hu M. A comparison of several approaches to missing attribute values in data mining//Ziarko W, Yao Yiyu eds. Rough Sets and Current Trends in Computing. Lecture Notes in Computer Science 2005. Berlin Heidelberg: Springer, 2001: 378-385.
8Li Z, Sharaf M A, Sitbon L, et al. WebPut: Efficient webbased data imputation//Wang X S, Cruz I, Delis A, Huang Guangyan eds. Web Information Systems Engineering-WISE 2012. Lecture Notes in Computer Science 7651. Berlin Heidelberg: Springer, 2012: 243-256.
9LinJ. The web as a resource for question answering: Perspectives and challenges//Proceedings of the 3rd International Conference on Language Resource and Evaluation (LREC 2002). Las Palrnas , Spain. 2002.
10Zhao S, Grishman R. Extracting relations with integrated information using kernel methods//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics. Michigan, USA, 2005: 419-426.

共引文献48

1尹国丽.人工智能在数据清洗中的应用[J].电子世界,2016,0(16):43-43. 被引量：1
2李鹏,王润泽,冯剑龙,薛坤.大数据环境下一种基于学习的实体识别方法[J].齐鲁工业大学学报,2016,30(5):55-58. 被引量：1
3杜岳峰,申德荣,聂铁铮,寇月,于戈.基于关联数据的一致性和时效性清洗方法[J].计算机学报,2017,40(1):92-106. 被引量：41
4马平全,宋凯,纪建伟.基于N-Gram算法的数据清洗技术[J].沈阳工业大学学报,2017,39(1):67-72. 被引量：10
5杨帆,李显忠,潘可佳,龚艳,曾愚,刘捷,赵以兵.基于大数据分析的供电营业厅运营效率评估[J].电力信息与通信技术,2017,15(2):8-13. 被引量：13
6宋杰,孙宗哲,毛克明,鲍玉斌,于戈.MapReduce大数据处理平台与算法研究进展[J].软件学报,2017,28(3):514-543. 被引量：95
7杨朔,杨威,陶砾,金凤飞.基于神经网络与MapReduce的科技云数据清洗模型[J].计算机时代,2017(7):6-9. 被引量：1
8叶飞,孙炜.关于任务合并的并行大数据清洗过程中的模块优化[J].自动化应用,2017(8):72-73.
9褚治广,颜飞,张兴,李畅.基于C4.5算法和Hadoop云计算平台的购物意愿分析方法[J].辽宁工业大学学报（自然科学版）,2017,37(4):225-229. 被引量：2
10杨巧巧,郭振波,王开西.基于聚类分组和属性综合权值的SNM改进算法[J].工业控制计算机,2017,30(9):27-28. 被引量：6

同被引文献32

1任子炎,仲照东.基于GIS技术和激光机载技术的三维地形测量系统[J].激光杂志,2018,39(12):28-31. 被引量：5
2张继贤,黄国满,程春泉.面向对象高可信SAR数据精确处理[J].武汉大学学报（信息科学版）,2018,43(12):1819-1831. 被引量：6
3刘振东,李成名,武鹏达,刘坡.去LoD层级约束的海量三维地形裂缝实时消除算法[J].测绘通报,2018(7):48-52. 被引量：4
4谢宏全,陈岳涛,赵芳,田董炜,卢霞.背负式移动激光扫描系统测绘大比例尺地形图精度试验研究[J].测绘通报,2019(2):141-143. 被引量：16
5文佳昕,李靖涵,行瑞星,杜佳威,刘旭升.顾及地形复杂度的多波束测深数据抽稀算法[J].测绘科学技术学报,2018,35(4):435-440. 被引量：8
6邓东林,徐冘,陈剑,杨仁增.智能用电数据的采集与预处理[J].电力大数据,2019,22(3):81-86. 被引量：9
7李建,韩立.基于可视化遥感的地震大区域灾情收集系统[J].地震工程学报,2019,41(2):520-525. 被引量：3
8魏亮,林子雨,赖永炫.DFTS:面向大数据集的Top-k Skyline查询算法[J].计算机科学,2019,46(5):150-156. 被引量：3
9常征,吕勇.基于正则表达式的海量数据清洗系统[J].计算机应用,2019,39(10):2942-2947. 被引量：16
10王明,李丽慧,廖小辉,黄北秀,王学良,陈子干,杨福华,刘建立.基于无人机航摄的高陡/直立边坡快速地形测量及三维数值建模方法[J].工程地质学报,2019,27(5):1000-1009. 被引量：42

引证文献2

1唐桂彬,周波.基于遥感GIS的地震应急信息质量控制系统设计[J].计算机测量与控制,2021,29(10):98-102.
2何容,徐鸿宇,邱林.基于层次分析法的乡村电气化指数评估[J].电力大数据,2022,25(2):37-45.

1潘鸣宇,张禄,龙国标,李香龙,马冬雪,徐亮.用于重复充电运营记录的基于块采样的高效聚集查询算法[J].计算机应用,2018,38(6):1596-1600.
2赵一凡,卞良,丛昕.数据清洗方法研究综述[J].软件导刊,2017,16(12):222-224. 被引量：23
3吴国庆,邴单,白静,杜如霞.模拟量子自组织神经网络[J].山东化工,2018,47(1):137-138.
4刘雪莉,李建中.不一致弱可用数据近似计算可行性判定问题[J].智能计算机与应用,2018,8(2):1-6.
5郑茜雪.物流业与城市化的协调性测度研究[J].中国商论,2018,0(32):13-15. 被引量：2
6申金鑫,吴烨,陈荦,景宁.面向空间在线分析的并行近似聚集查询[J].计算机科学与探索,2018,12(10):1559-1570. 被引量：1
7程晖,董小刚.基于数据挖掘的小微商铺信用风险分析[J].长春工业大学学报,2018,39(5):434-440. 被引量：3
8温庆华,黄沛江,王斌.一种提高MTC上行能效的LTE标准增强算法[J].通信电源技术,2018,35(9):45-48.
9段慧芳,汤小春.基于路径索引的密集邻域图数据查询方法研究[J].计算机应用研究,2018,35(12):3738-3742. 被引量：2
10董天阳,尚跃辉,程强.方向感知的路网移动对象范围查询算法[J].计算机科学,2018,45(11):210-219. 被引量：1

计算机工程与应用

2018年第24期

浏览历史

内容加载中请稍等...

有效解决数据缺失问题的聚集查询算法被引量：2

参考文献2

二级参考文献27

共引文献48

同被引文献32

引证文献2

相关作者

相关机构

相关主题

浏览历史

有效解决数据缺失问题的聚集查询算法 被引量：2

参考文献2

二级参考文献27

共引文献48

同被引文献32

引证文献2

相关作者

相关机构

相关主题

浏览历史

有效解决数据缺失问题的聚集查询算法被引量：2