基于压缩的海量不完整数据近似查询方法被引量：7

A Compression-Based Approximate Query Method for Massive Incomplete Data

下载PDF

导出

摘要随着数据的爆炸式增加,不完整数据普遍存在,传统的数据修复方法对于海量数据处理代价过高,且不能彻底修复,在这些不完整的海量数据上进行满足给定需求的近似查询引起了学术界的关注.因此,提出一种基于压缩的海量不完整数据近似查询方法,该方法对属性值缺失字段进行标记,根据频繁查询条件对标记后的数据进行压缩,并建立对应索引;根据属性划分对索引文件再次压缩以节省存储空间,采用编码字典对索引压缩文件进行选择和投影操作,最终获得不完整数据的近似查询结果.实验表明,该方法能够快速定位不完整数据的压缩位置,提高了查询效率,节省了存储空间,并且保证了查询结果的完整性. With the explosive increase of data,incomplete data are widespread.Traditional methods of data repair will cause high processing cost for mass data,and cannot be fully restored.Thus the approximate querying on these huge amounts of incomplete data for meeting the given requirements attracted greater attention from academics.Therefore,this paper proposes an approximate query method for massive incomplete data based on compression.Tagging the missing attribute value field and finding out the frequent query conditions,this method compresses these data based on the statistical frequent query conditions,and establishes the corresponding indexes.According to the attribute partition rules,index files are compressed again in order to further save storage space.In the stage of query,this method uses encoding dictionary to make selection and projection operations on the index compression files for getting approximate query results of incomplete data in the end.Experimental results show that this method can quickly locate the position of incomplete data compression,improve the query efficiency,save the storage space,and ensure the integrity of the query results.

作者王妍刘赓浩王俊陆宋宝燕

机构地区辽宁大学信息学院东北大学信息与工程学院

出处《计算机研究与发展》 EI CSCD 北大核心 2016年第3期571-581,共11页 Journal of Computer Research and Development

基金国家自然科学基金项目(61472169 61472072) 国家科技支撑计划基金项目(2012BAF13B08) 国家"九七三"重点基础研究发展计划前期研究专项基金项目(2014CB360509) 辽宁省科学事业公益研究基金项目(2015003003) 辽宁省工业攻关及成果产业化计划项目(2012216007)~~

关键词不完整数据近似查询数据压缩索引编码字典 incomplete data approximate query data compression index encoding dictionary

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162. 被引量：259
2武森,冯小东,单志广.基于不完备数据聚类的缺失数据填补方法[J].计算机学报,2012,35(8):1726-1738. 被引量：62
3陈志奎,吕爱玲,张清辰.基于属性重要性的不完备数据填充算法[J].微电子学与计算机,2013,30(7):167-172. 被引量：10
4许霞,马光思,鱼涛.LZW无损压缩算法的研究与改进[J].计算机技术与发展,2009,19(4):125-127. 被引量：24
5梁华国,蒋翠云,罗强.应用对称编码的测试数据压缩解压方法[J].计算机研究与发展,2011,48(12):2391-2399. 被引量：8
6赵锴,李建中,骆吉洲.基于谓词索引的海量数据压缩存储及数据操作算法[J].计算机科学,2005,32(9):86-90. 被引量：3

二级参考文献189

1杨涛,骆嘉伟,王艳,吴君浩.基于马氏距离的缺失值填充算法[J].计算机应用,2005,25(12):2868-2871. 被引量：24
2彭喜元,俞洋.基于变游程编码的测试数据压缩算法[J].电子学报,2007,35(2):197-201. 被引量：33
3胡瑜,韩银和,董婕,等.无芯2E可测性设计[R].北京:中国科学院计算技术研究所,2005.
4Touha N A. Survey of test vector compression techniques [J]. IEEE Design & Test Of Computers, 2006, 23(4) : 294- 303.
5Koenemann B. LFSR-Coded test patterns for scan designs [C] //Proc of European Test Conf (ETCgl). Munich, Germany: VDE Verlag, 1991: 237-242.
6Baryraktaroglu I, Orailoglu A. Concurrent application of compaction and compression for test time and data volume reduction in scan designs [J]. IEEE Trans on Computers, 2003, 52(11): 1480-1489.
7Hamzaoglu I, Patel J H. Reducing test application time for full scan embedded cores [C] //Proc of Int Syrup on Fault Tolerant Computing. Los Alamitos, CA: IEEE Computer Society, 1999:260-267.
8Chandra A, Chakrabarty K, Test data compression and test resource partitioning for system-on-a-chip using frequency- directed run-length (FDR) codes [J]. IEEE Trans on Computers, 2003, 52(8): 1076-1088.
9EI-Maleh A H. using extended Computer Digit Test data cgmpression for system-on-a-chip frequency-directed run-length code [J]. lET Technology, 2008, 2(3):155-163.
10Tehranipour M, Nourani M, Chakrabarty K. Nine-coded compression technique with application to reduced pin-count testing and flexible on-chip decompression [C] //Proc of Design Automation Test in Europe (DATE'04). Los Alamitos, CA: IEEE Computer Society, 2004:1284-1289.

共引文献355

1张安珍,李建中,高宏.基于符号语义的不完整数据聚集查询处理算法[J].软件学报,2020,31(2):406-420. 被引量：7
2杨超,袁翰青,王彬,苗占群,周兴华,石亚欣.基于三次卷积插值的电网负载热力图分析方法[J].科技通报,2020(2):69-73. 被引量：1
3李小遐,高杨.一种基于字典的无损压缩改进算法研究[J].自动化与仪器仪表,2016(2):123-124. 被引量：1
4林国庆,陈汝伟,李颖,王新梅.基于网络编码的文件备份方案[J].计算机科学,2010,37(2):116-119. 被引量：1
5毕永成.多媒体数据处理中几种无损压缩算法的比较[J].今日科苑,2010(10):119-120. 被引量：1
6王美林,钟润阳,戴青云,周科,何锦彬.海量数据处理接口关键技术研究[J].现代制造工程,2010(6):13-16. 被引量：3
7祝君,林庆农,徐造林.实时历史数据库中压缩技术的并行化研究[J].计算机技术与发展,2010,20(7):36-39. 被引量：4
8谢亦才,钟剑.Douglas—Peucker和LZW算法在矢量数据压缩中的应用[J].电脑知识与技术,2010,6(9):6907-6908. 被引量：1
9周双英,余建桥.RWM & DEWS数据二次压缩算法研究[J].计算机工程,2011,37(2):40-42. 被引量：2
10赵双龙,郝永生.LZW改进压缩算法的FPGA实现[J].现代电子技术,2011,34(3):110-111. 被引量：3

同被引文献55

1石利平.浅析基于Web的云存储技术[J].现代计算机,2010,16(3):117-119. 被引量：16
2张东.云存储技术研究与应用[J].科研信息化技术与应用,2012,3(6):85-90. 被引量：7
3慈祥,马友忠,孟小峰.一种云环境下的大数据Top-K查询方法[J].软件学报,2014,25(4):813-825. 被引量：17
4陈锋,孙淼洋.数据仓库与云存储技术在高校教学档案管理中的研究与应用[J].中国教育信息化（高教职教）,2014(5):67-69. 被引量：4
5王怀宇,李景丽.网络海量数据中隐私泄露检测方法仿真[J].计算机仿真,2014,31(6):429-432. 被引量：10
6朱命冬,申德荣,解宁,于戈,寇月,聂铁铮.面向关联关系数据的分布式相似性查询方法[J].计算机科学与探索,2014,8(7):778-789. 被引量：3
7侯荣军,房俊,张建静.一种流数据实时写入保障下的数据查询方法[J].计算机应用研究,2014,31(9):2736-2740. 被引量：7
8李重文,邓腾彬,马世龙.基于分段极值的时间序列数据查询显示方法[J].计算机工程,2014,40(9):27-31. 被引量：4
9刘淑英.云计算中基于随机游走的数据查询方法研究[J].微型电脑应用,2014,30(9):30-33. 被引量：3
10彭良睿,李学明.一种基于树型结构的P2P系统高维数据检索方法[J].计算机应用研究,2015,32(3):842-845. 被引量：8

引证文献7

1张永丹.大数据的城市交通有序通行信息实时管理仿真[J].计算机仿真,2018,35(12):139-142. 被引量：4
2姬龙涛.科学技术数据库资源共享存取优化仿真[J].计算机仿真,2017,34(6):398-401. 被引量：1
3张虹.数据库中工业产品资源信息准确定位仿真[J].计算机仿真,2017,34(10):406-409. 被引量：1
4胡又农,徐程程,赵锦红,朱小明.无线传感器网络通信中用户数据优化查询仿真[J].计算机仿真,2018,35(10):449-452. 被引量：3
5尹强飞.基于并行计算的高冗余数据压缩和存储算法[J].信息与电脑,2017,29(19):145-146.
6王跃晟,王维庆.基于Shapelets的EIOT电能质量数据修复算法[J].计算机仿真,2020,37(12):85-89. 被引量：3
7徐知海,萧锘,钟毅,史东林.区域性电子病历信息高效查询方法仿真研究[J].计算机仿真,2019,36(4):449-452. 被引量：3

二级引证文献15

1孔旭梅.大数据视角下计算机科学技术的综合转折途径研究[J].信息与电脑,2018,30(20):130-132. 被引量：1
2许汪歆,袁天辰,杨俭.基于密度聚类算法的轨道结构故障诊断研究[J].上海工程技术大学学报,2020,34(1):1-8. 被引量：1
3尧雪莉,梁海峰.支持偏好调控的线性递归查询的数学建模[J].计算机仿真,2020,37(12):469-473.
4单晓峰,王池社,江筱薇.基于多源异构交通大数据的综合客运枢纽预警模型研究[J].金陵科技学院学报,2020,36(4):1-5.
5吴格馨.隧道平行交通系统[J].物联网技术,2021,11(3):54-56.
6高晶,郭志帅.基于RFID技术的四旋翼无人机轨迹跟踪控制系统设计[J].计算机测量与控制,2021,29(8):114-118. 被引量：2
7张成娟.小样本条件下非对称无线通信信息交换传输技术[J].电子设计工程,2021,29(17):143-146.
8柴凯杰,丁有伟,胡孔法.基于区块链的中医电子病历高效查询方法研究[J].软件导刊,2021,20(12):9-14. 被引量：2
9刘沁,王春丽,尹琛,陈秉乾,高献,林晓宁,吴慧莹.基于ASP的电力施工安全质量监测系统的设计与实现[J].能源与环保,2022,44(11):12-17. 被引量：3
10韩涛,聂小华,段世慧,常亮.结构强度试验连接件仿真模型数据库设计研究[J].工程与试验,2023,63(1):93-95.

1周昊,火元莲.一种改进协同表示字典的人脸识别方法[J].济南大学学报（自然科学版）,2016,30(1):29-35. 被引量：1
2刘建军.巧获五笔字型编码字典[J].新浪潮,1995(2):60-61.
3梅松青,周洪建.一种用于协同表示的构造最优编码字典方法[J].计算机技术与发展,2014,24(4):126-130. 被引量：1
4孙胜林.如何修改双拼输入法编码字典[J].电子与电脑,1998,5(4):131-133.
5李昕,孟祥福.基于相似性推荐的电子商务Web数据库关键字近似查询方法[J].小型微型计算机系统,2015,36(7):1487-1491. 被引量：4
6张晓克.基于小波的POCS超分辨率图像重建[J].计算机光盘软件与应用,2014,17(23):132-133. 被引量：1
7刘思思,叶猛.位置服务中基于盲签名的隐私保护技术研究[J].电视技术,2014,38(3):89-92.
8康达周,徐宝文,陆建江,汪鹏.基于关系矩阵的异构本体间近似查询(英文)[J].Journal of Southeast University(English Edition),2005,21(1):1-5.
9谭毓安,张治中,张雪兰.汉字输入系统的分析与设计[J].兵工自动化,1995,14(3):29-33.
10何希平.汉字输入的编码字典与通用算法[J].渝州大学学报,1998,15(3):51-55. 被引量：1

计算机研究与发展

2016年第3期

浏览历史

内容加载中请稍等...

基于压缩的海量不完整数据近似查询方法被引量：7

参考文献6

二级参考文献189

共引文献355

同被引文献55

引证文献7

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于压缩的海量不完整数据近似查询方法 被引量：7

参考文献6

二级参考文献189

共引文献355

同被引文献55

引证文献7

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于压缩的海量不完整数据近似查询方法被引量：7