数据完整性的评估方法被引量：11

Evaluation of Data Completeness

下载PDF

导出

摘要随着信息技术的发展,数据的规模正在高速增长,数据中普遍存在质量问题.针对海量关系数据中普遍存在的数据不完整现象,研究了关系数据完整性度量问题.针对数据的完整性计算问题,提出了数据完整性计算模型,以及精确算法和基于均匀抽样的近似算法.理论分析证明了近似算法可以达到任意的精度要求,可以高效地对数据完整性进行计算.通过在DBLP数据上的实验验证了算法的有效性和高效性. With the development of information technology,the scale of data is increasing sharply, which brings more quality problems with it.Incomplete data usually exits in massive data,which gives rise to the research problem of this paper.A model of evaluating data completeness is proposed. And an exact algorithm and an approximate algorithm based on uniform sampling are proposed to evaluate data completeness in this paper.The theoretical analysis demonstrates that the proposed approximate algorithm can reach arbitrary precision,which can evaluate data completeness efficiently. Experiments on data extracted from DBLP show effectiveness and high performance of our approximate algorithm.

作者刘永楠邹兆年李建中王海洁

机构地区哈尔滨工业大学计算机科学与技术学院哈尔滨工业大学网络与信息中心

出处《计算机研究与发展》 EI CSCD 北大核心 2013年第S1期230-238,共9页 Journal of Computer Research and Development

基金国家"九七三"重点基础研究发展计划基金项目(2012CB316202)

关键词数据质量数据完整性均匀抽样近似算法数据完整性模型 data quality data completeness uniform sampling approximate algorithm a model of data completeness

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1Tomasz Imieliński,Witold Lipski.Incomplete Information in Relational Databases[J].Journal of the ACM (JACM).1984(4)
2Amihai Motro.Integrity = validity + completeness[J].ACM Transactions on Database Systems (TODS).1989(4)
3郭志懋,周傲英.数据质量和数据清洗研究综述[J].软件学报,2002,13(11):2076-2082. 被引量：268
4Wenfei Fan,Floris Geerts.Relative information completeness[J].ACM Transactions on Database Systems (TODS).2010(4)

二级参考文献24

1Aebi, D., Perrochon, L. Towards improving data quality. In: Sarda, N.L., ed. Proceedings of the International Conference on Information Systems and Management of Data. Delhi, 1993. 273～281.
2Wang, R.Y., Kon, H.B., Madnick, S.E. Data quality requirements analysis and modeling. In: Proceedings of the 9th International Conference on Data Engineering. Vienna: IEEE Computer Society, 1993. 670～677.
3Rahm, E., Do, H.H. Data cleaning: problems and current approaches. IEEE Data Engineering Bulletin, 2000,23(4):3～13.
4Galhardas, H., Florescu, D., Shasha, D., et al. AJAX: an extensible data cleaning tool. In: Chen, W.D., Naughton, J.F., Bernstein, P.A., eds. Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. Texas: ACM, 2000. 590.
5Hernandez, M.A., Stolfo, S.J. Real-World data is dirty: data cleansing and the merge/purge problem. Data Mining and Knowledge Discovery, 1998,2(1):9～37.
6Lee, M.L., Ling, T.W., Lu, H.J., et al. Cleansing data for mining and warehousing. In: Bench-Capon, T., Soda, G., Tjoa, A.M., eds. Database and Expert Systems Applications. Florence: Springer, 1999. 751～760.
7Monge, A.E. Matching algorithm within a duplicate detection system. IEEE Data Engineering Bulletin, 2000,23(4):14～20.
8Monge, A.E., Elkan, C. The field matching problem: algorithms and applications. In: Simoudis, E., Han, J.W., Fayyad, U., eds. Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining. Oregon: AAAI Press, 1996. 267～270.
9Savasere, A., Omiecinski, E., Navathe, S.B. An efficient algorithm for mining association rules in large databases. In: Dayal, U., Gray, P., Nishio, S., eds. Proceedings of the 21st International Conference on Very Large Data Bases. Zurich: Morgan Kaufmann, 1995. 432～444.
10Srikant, R., Agrawal, R. Mining Generalized Association Rules. In: Dayal, U., Gray, P., Nishio, S., eds. Proceedings of the 21st International Conference on Very Large Data Bases. Zurich: Morgan Kaufmann, 1995. 407～419.

共引文献267

1梁莉莉,布瑞丰.非遗视频直播的技术逻辑及其潜在风险——基于抖音平台的“田野”观察[J].青海民族研究,2022,33(3):136-141. 被引量：5
2王利民,李硕硕,王学鑫,冯志江,司亚超,邓全才,吴永强.基于grubbs检验的中水压力数据清洗[J].河北建筑工程学院学报,2022,40(4):144-147.
3丁小欧,王宏志,靳贺霖,高猛.时序数据错误检测与修复研究综述[J].智能计算机与应用,2021,11(12):1-6. 被引量：5
4周力,张勃.向Oracle进行数据移植的方法[J].沈阳大学学报,2003,15(2):38-39. 被引量：3
5宋峥嵘,朴春梅.数据质量与数据清理浅谈[J].今日科苑,2009(17).
6毕锟,刘军.ETL系统的设计及其研究[J].软件导刊,2010,9(5):173-175. 被引量：9
7曹建军,刁兴春,陈爽,邵衍振.数据清洗及其一般性系统框架[J].计算机科学,2012,39(S3):207-211. 被引量：31
8李巍巍.大数据技术应用研究[J].自动化与仪器仪表,2016(7):195-196. 被引量：3
9邓莎莎,陈松乔.基于异构数据抽取清洗模型的元数据的研究[J].计算机工程与应用,2004,40(30):175-177. 被引量：5
10缪嘉嘉,吴刚,毛捍东,杨强,邓苏.一种基于条件概率分布的近似重复记录检测方法[J].小型微型计算机系统,2004,25(12):2164-2168. 被引量：3

同被引文献112

1陈龙,李俊中.支持不同粒度运算的远程数据完整性验证[J].吉林大学学报（工学版）,2012,42(S1):295-299. 被引量：2
2刘小宁,任芝花.地面气象资料质量控制方法研究概述[J].气象科技,2005,33(3):199-203. 被引量：150
3康效龙,张玉清,田玉敏.触发器在实现数据库安全方面的新应用[J].计算机工程,2005,31(19):157-159. 被引量：13
4吴晶,王书文.基于XML语言的信息隐藏方法[J].中国安全科学学报,2005,15(12):78-80. 被引量：14
5李明,练奇峰.试析房地产税基评估——技术标准[J].中国房地产,2006(5):59-62. 被引量：5
6蒋彩云,王维平,李群.SysML:一种新的系统建模语言[J].系统仿真学报,2006,18(6):1483-1487. 被引量：39
7刘勇,吴必文,王东勇.一种台风路径相似检索的算法研究[J].气象,2006,32(7):18-24. 被引量：20
8薛根元,俞善贤,何风翩,陈国勇.云娜台风灾害特点与浙江省台风灾害初步研究[J].自然灾害学报,2006,15(4):39-47. 被引量：29
9周莉,王炼红,李丽娟.一种基于XML文档的数字水印方案[J].湖南大学学报（自然科学版）,2007,34(5):83-86. 被引量：4
10任芝花,熊安元,邹凤玲.中国地面月气候资料质量控制方法的研究[J].应用气象学报,2007,18(4):516-523. 被引量：45

引证文献11

1王红,陈功平.数据完整性机制的研究与实现[J].佛山科学技术学院学报（自然科学版）,2015,33(1):81-87. 被引量：3
2李建中,王宏志,高宏.大数据可用性的研究进展[J].软件学报,2016,27(7):1605-1625. 被引量：65
3秦华,曹广生.浅谈对药品实验室数据完整性的质量控制[J].中国卫生产业,2016,13(24):159-160. 被引量：3
4甘似禹,车品觉,杨天顺,吴俊伟.大数据治理体系[J].计算机应用与软件,2018,35(6):1-8. 被引量：24
5袁满,刘峰,曾超,谢兰.数据质量维度与框架研究综述[J].吉林大学学报（信息科学版）,2018,36(4):444-451. 被引量：10
6吴保喜,杨青.房地产税批量估价技术方案选择与制度安排[J].中国房地产,2018,0(31):74-77.
7严亚伟,周雁舟,惠文涛.模型检测在完整性形式化验证中的应用研究[J].计算机工程与应用,2017,53(4):59-63. 被引量：1
8张军亮,朱鹏.基于区块链的XML分布式存储内容完整性保护方案设计与实现[J].情报理论与实践,2020,43(2):150-156. 被引量：10
9李新庆,王凡,张智,卫建国.气象数据完整性评估及可视化应用[J].软件,2020,41(4):72-76. 被引量：1
10袁满,胡超,仇婷婷.基于Linked data的数据完整性评估新方法[J].吉林大学学报（工学版）,2020,50(5):1826-1831. 被引量：3

二级引证文献121

1张蕴娣,于宁,赵闯.国内图情领域区块链研究热点与展望[J].情报科学,2022,40(10):187-192. 被引量：4
2赵瑞峰,孟莉,李军,郭亚利.基于规则定制的数据质量检查系统设计与实现[J].网络安全与数据治理,2023,42(S02):167-173.
3王利民,李硕硕,王学鑫,冯志江,司亚超,邓全才,吴永强.基于grubbs检验的中水压力数据清洗[J].河北建筑工程学院学报,2022,40(4):144-147.
4丁小欧,王宏志,靳贺霖,高猛.时序数据错误检测与修复研究综述[J].智能计算机与应用,2021,11(12):1-6. 被引量：5
5黄乙中.浅谈数据治理建设方案[J].轻工科技,2020(1):65-67. 被引量：3
6刘兆德,栾兆擎.山东省环境污染现状与环境类型初步研究[J].国土与自然资源研究,2000(2):53-56. 被引量：2
7朱新书,段二喜,唐湘彦,汪友元,唐剑,高菊生.鲁西黄牛在湘南红壤丘陵地区的增重潜力试验[J].中国草食动物,2000,2(1):26-27.
8张新阳,张梅,马文,程永新.基于电力行业的大数据时代下元数据管理方法[J].电脑知识与技术,2018,14(11):258-260. 被引量：7
9张网娟,许国艳,李敏佳,朱帅.基于卷积神经网络的缺失数据填充方法[J].微电子学与计算机,2019,36(3):48-52. 被引量：9
10杨俊成,李淑霞.大数据分析在电商行业的应用[J].系统仿真技术,2017,13(1):18-21. 被引量：1

1陈虹君.Spark框架的Graphx算法研究[J].电脑知识与技术,2015,0(1):75-77. 被引量：4
2吉成恒,雷咏梅.大规模数据集聚类的K邻近均匀抽样数据预处理算法[J].上海大学学报（自然科学版）,2016,22(1):28-35. 被引量：2
3陈松,王珊,周明天.基于实时分析的网络测量抽样统计模型[J].电子学报,2010,38(5):1177-1180. 被引量：12
4李海莉,史梦琳,张震,宫阳阳,郭威,王雨.一种基于流数约减的非线性公平采样算法[J].计算机应用研究,2015,32(6):1826-1829.
5王洪元,刘爱萍,程起才,刘锁兰.一种改进的有间隔流形ISOMAP算法[J].计算机科学,2011,38(12):250-254.
6骆吉洲,李建中.一种有效的关系数据库压缩方法[J].软件学报,2005,16(2):205-214. 被引量：7
7丁阳,钱鹏江.医学图像分割中基于数据浓缩的谱聚类算法[J].计算机工程,2012,38(12):17-21. 被引量：2
8胡春玲,胡学钢,吕刚.一种贝叶斯网络结构学习的混合随机抽样算法[J].计算机工程,2014,40(5):238-242. 被引量：6
9潘晨,闫相国,郑崇勋,梁成文.利用单类支持向量机分割血细胞图像[J].西安交通大学学报,2005,39(2):150-153. 被引量：12
10王朝晖,周佩玲.基于小波特征和模拟退火的遥感图象快速聚类算法[J].中国图象图形学报（A辑）,2002,7(12):1257-1262. 被引量：1

计算机研究与发展

2013年第S1期

浏览历史

内容加载中请稍等...

数据完整性的评估方法被引量：11

参考文献4

二级参考文献24

共引文献267

同被引文献112

引证文献11

二级引证文献121

相关作者

相关机构

相关主题

浏览历史

数据完整性的评估方法 被引量：11

参考文献4

二级参考文献24

共引文献267

同被引文献112

引证文献11

二级引证文献121

相关作者

相关机构

相关主题

浏览历史

数据完整性的评估方法被引量：11