基于输入样本和主数据的编辑规则挖掘算法

Method for Discovering Editing Rules From Sample Inputs and Master Data

下载PDF

导出

摘要基于编辑规则和主数据的数据修复技术能自动地、确切地修复不一致数据,但目前编辑规则的获取主要依靠专业人员的定义.为了实现数据清洗全自动化,数据规则的挖掘技术近年来成为研究热点,针对条件函数依赖提出的挖掘算法主要有CFDMiner,CTANE,FastCFD.在此基础上,扩展条件函数依赖(CFD)的定义,在编辑规则的定义下提出了一种基于输入样本和主数据的编辑规则挖掘算法,主要思路是从输入样本中挖掘出CFD,然后根据输入样本与主数据在属性上的定义域相似性求出输入样本在主数据中的对应属性,从而形成带模式组的编辑规则,此算法能有效地挖掘编辑规则.且所挖掘的编辑规则按照编辑规则语义能有效地进行数据修复. Data repairing based on editing rules and master data can automatically and exactly fix inconsistent data, but editing rules mainly relies on the definition by professional staff at present. To achieve data cleaning automatically in the whole process, the techniques for discovering data rules become a hot research topic in recent years. The algorithms for mining CFDs mainly involve CFDMiner, CTANE, FastCFD. Based on the above techniques, we provide a mining algorithm for editing rule, which is based on sample inputs and master data under the extension definition of CFD and the definition of edit rules. The main ideas is as below： Mining CFD from sample inputs firstly; then according to the domain similarity between input samples and master data, we can get the corresponding properties of input samples from the master data, forming editing rules with pattern group. The algorithm can effectively discover edit rules. And the mined edit rules can effectively repair the data in accordance with the semantic of the rules.

作者杨辉于守健陈少总

机构地区东华大学计算机科学与技术学院

出处《计算机系统应用》 2017年第4期162-168,共7页 Computer Systems & Applications

关键词编辑规则条件函数依赖数据清洗等价类划分 editing rules conditional functional dependency data cleaning equivalence classes partitions

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1胡艳丽,张维明.条件依赖理论及其应用展望[J].计算机科学,2009,36(12):115-118. 被引量：8
2刘波,耿寅融.数据质量检测规则挖掘方法[J].模式识别与人工智能,2012,25(5):835-844. 被引量：8

二级参考文献34

1谈子敬,施伯乐.函数依赖和规范化在关系和XML间的传播[J].软件学报,2005,16(4):533-539. 被引量：18
2叶舟,王东.基于规则引擎的数据清洗[J].计算机工程,2006,32(23):52-54. 被引量：18
3Lenzerini M. Data Integration: A Theoretical Perspective[C]// pods'02. 2002.
4Rahm E, Do H H. Data cleaning: problems and current approaches[J]. IEEE Data Engineering Bulletin, 2000,23 (4) : 3-13.
5Winkler W E. Advanced methods for record linkage[M]. Statistical Research Division, U. S. Bureau of the Census, 1994.
6Hernandez M A, Stolfo S. Real-world data is dirty: Data cleansing and the merge/purge problem[J]. Data Min. Knowl. Discoy. ,1998,2(1):9-37.
7Galhardas H , Florescu D,Shasha D, et al. AJAX:An extensible data cleaning tool[C] // Proceedings of the International Conference on Management of Data (SIGMOD). 2000.
8Monge A E. Matching algorithms within a duplicate detection system[J]. IEEE Data Eng. Bull. , 2000,23 (4) : 14-20.
9Raman V A H J M. Potter's wheel: An interactive data cleaning system[C]//Proceedings of the International Conference on Very Large Databases (VLDB). 2001.
10Silberschatz A, Korth H F. Database System Concepts. McGraw-Hill, 1986.

共引文献14

1程录庆.数据约束表达研究——比较条件函数依赖与传统函数依赖[J].洛阳师范学院学报,2011,30(11):61-64.
2耿寅融,刘波.基于条件函数依赖的数据库一致性检测研究[J].计算机工程与应用,2012,48(3):122-125. 被引量：9
3李丁月,刘建勋,翟海军.一种增量发现条件函数依赖的算法[J].计算机工程与科学,2013,35(8):149-155. 被引量：1
4钱振兴,万定生,李士进,程习锋.基于水利普查数据的函数依赖关系算法[J].计算机与现代化,2014(8):96-100. 被引量：1
5郑婷,段富.基于内容感知发现XML条件函数依赖[J].计算机应用研究,2014,31(12):3655-3658. 被引量：1
6张方舟,高晓松.基于条件函数依赖的挖掘算法研究[J].计算机技术与发展,2015,25(5):56-59. 被引量：6
7廖建新.大数据技术的应用现状与展望[J].电信科学,2015,31(7):1-12. 被引量：68
8周金陵,刁兴春,曹建军.基于开项集剪枝的常量条件函数依赖挖掘[J].清华大学学报（自然科学版）,2016,56(3):253-261. 被引量：1
9刘浩,周文宇,张亚武,李建光,吕志娟,朱海锋,郭帅.基于海量平台的水电生产实时信息系统数据稳定性及准确性问题的分析与解决[J].水电与抽水蓄能,2017,3(5):57-60. 被引量：1
10毛燠锋,钱振兴,万定生,朱跃龙.基于条件函数依赖的CTANE算法研究与应用[J].计算机工程与应用,2017,53(11):85-89. 被引量：1

1萧宇.邮件管理我按规则办事[J].电脑迷,2005,0(3):81-82.
2飞雪散花.打造坚固的Outlook 2007反垃圾邮件防线[J].电脑迷,2007,0(18):10-11.
3张云鹏.计算机硬盘故障数据恢复技术[J].计算机光盘软件与应用,2015,18(3):141-142. 被引量：9
4数据修复软硬兼施[J].计算机时代,2007(4):12-12.
5屈平,方芳.数据修复技术的发展及其市场前景[J].中国信息导报,2004(10):57-58.
6陈赫贝,王念桥.XMLSchema与DTD的比较及应用[J].微机发展,2004,14(1):66-68. 被引量：3
7刘强,郑莹娜.微机硬盘引导机理与数据修复技术[J].电子产品维修与制作,1998(9):35-37.
8张传岩,洪晓光,彭朝晖,李庆忠.基于SVM和扩展条件随机场的Web实体活动抽取[J].软件学报,2012,23(10):2612-2627. 被引量：14
9我国数据修复技术取得突破性进展[J].河南科技,2004,23(6):43-43.
10张慧,寇彩霞.带模式步的梯度法[J].软件,2016,37(8):16-19.

计算机系统应用

2017年第4期

浏览历史

内容加载中请稍等...

基于输入样本和主数据的编辑规则挖掘算法

参考文献2

二级参考文献34

共引文献14

相关作者

相关机构

相关主题

浏览历史