基于二次模糊评判的相似重复记录检测方法被引量：3

Method for detecting approximately duplicated records based on twice fuzzy evaluation

下载PDF

导出

摘要数据库集成时会产生大量的相似、重复记录,字段匹配算法是对其进行检测并清洗的主要方法之一.针对等级法确定属性权值主观性过强的问题,提出改进的基于二次模糊评判的检测方法.根据等级法对属性进行第一次评判,剔除等级低的部分非重要属性;对剩余属性进行二次模糊评判,平均属性等级评判的结果,确定属性权值,然后对数据集进行分组,并在各个数据集中检测相似重复记录.理论分析和实验结果表明,该方法不仅提高了运行效率,而且可以进一步提高查重的查准率和查全率. A large number of approximately and duplicated records are produced during the database integration,and the field matching algorithm is one of the main methods to detect and clean them.Aiming at the problem that the grading method of attribute weight is too subjective,an improved detection method based on twice fuzzy evaluation is put forward.Firstly,according to the grading method,remove some unimportant attributes which are at lower levels by the first judgement.Secondly,another fuzzy evaluation is given on the remaining attributes.Then,the attribute weights are obtained by averaging the attributes grade.Finally,the data sets are grouped,and parallelled in each data set to detect approximately duplicated records.Theoretical analysis and experimental results show that the method not only improves the efficiency,but can further improve the precision and recall.

作者黄建琼

机构地区福州外语外贸学院信息系

出处《江苏师范大学学报（自然科学版）》 CAS 2016年第1期39-42,共4页 Journal of Jiangsu Normal University：Natural Science Edition

基金福建省教育厅科技项目(JB14129)

关键词相似重复记录属性等级权值检测模糊评判 approximately duplicated record attribute grade weight detection fuzzy evaluation

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献17

1Jain A K,Murty M N,Flynn P J. Data clustering:a re view[J]. ACM Comput Surv,1999,31(3):264.
2Jain A K,Duin R P W, Mao J C. Statistical pattern recognition:a review[J]. IEEE Trans Pattern Analysis Machine Intelligence, 2000,22 ( 1 ) : 4.
3曹渠江,董明.一种在高维空间中聚类检测重复记录的新方法[J].计算机工程与应用,2008,44(29):171-173. 被引量：4
4石彦华,李蜀瑜.聚类反馈学习的数据清洗研究[J].计算机工程与应用,2011,47(30):127-131. 被引量：6
5王秀慧,王丽珍,麻淑芳.结合语义的改进FTC文本聚类算法[J].计算机工程与设计,2014,35(2):515-519. 被引量：5
6Levenshtein V I. Binary codes capable of correcting de- letions, insertions and reversals [J]. Soviet Physics- Doklady, 1966,10(8) :707.
7刘宝艳,林鸿飞,赵晶.基于改进编辑距离和依存文法的汉语句子相似度计算[J].计算机应用与软件,2008,25(7):33-34. 被引量：22
8姜华,韩安琪,王美佳,王峥,吴雲玲.基于改进编辑距离的字符串相似度求解算法[J].计算机工程,2014,40(1):222-227. 被引量：72
9Pan J S,Qiao Y L,Sun S H. A fast K nearest neigh- bors classification algorithm[J]. IEICE Trans Funda- mentals of Electronics Communications & Computer Sciences, 2004,87 (4) : 961.
10许朝阳.基于多标记文本分类的ML-KNN改进算法[J].江苏师范大学学报（自然科学版）,2012,30(3):27-30. 被引量：1

二级参考文献162

1赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
2刘海涛.依存语法和机器翻译[J].语言文字应用,1997(3):91-95. 被引量：43
3车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：64
4孔锐,张国宣,施泽生,郭立.基于核的K-均值聚类[J].计算机工程,2004,30(11):12-13. 被引量：46
5董振东,董强.知网和汉语研究[J].当代语言学,2001,3(1):33-44. 被引量：57
6陈伟,丁秋林.一种XML相似重复数据的清理方法研究[J].北京航空航天大学学报,2004,30(9):835-838. 被引量：7
7郭艳华,周昌乐.一种汉语语句依存关系网协动生成方法研究[J].杭州电子工业学院学报,2000,20(4):24-32. 被引量：11
8洪圆,孙未未,施伯乐.一种使用双阈值的数据仓库环境下重复记录消除算法[J].计算机工程与应用,2005,41(1):168-170. 被引量：9
9陈振洲,李磊,姚正安.基于SVM的特征加权KNN算法[J].中山大学学报（自然科学版）,2005,44(1):17-20. 被引量：51
10曹忠升,万劲伟.基于语义的数据清理技术[J].华中科技大学学报（自然科学版）,2005,33(2):76-78. 被引量：2

共引文献155

1王晓原,吴芳,邢丽.交通流冗余数据识别和约简方法[J].计算机应用,2009,29(4):1110-1113.
2钟嘉庆,张义芳,卢志刚.数据仓库中重复记录清理算法研究[J].信息化纵横,2009(7):4-6. 被引量：4
3吴诗贤.一种时变对象加权概率辨识模型[J].计算机科学,2009,36(9):246-247.
4肖满生,江力,刘有势.一种识别相似重复记录的模糊匹配方法[J].计算机应用与软件,2009,26(11):183-185. 被引量：2
5曹小峰.基于相似重复记录检测的特征优选方法研究[J].计算机工程与设计,2009,30(23):5492-5495. 被引量：3
6周丽娟,肖满生.基于数据分组匹配的相似重复记录检测[J].计算机工程,2010,36(12):104-106. 被引量：6
7戴颖,李兴国,赵启飞.一种相似重复记录检测算法的改进研究[J].计算机技术与发展,2010,20(7):13-16. 被引量：4
8肖满生,周浩慧,王宏.基于模糊综合评判的相似重复记录识别方法[J].计算机工程,2010,36(13):51-53. 被引量：14
9叶焕倬,吴迪.相似重复记录清理方法研究综述[J].现代图书情报技术,2010(9):56-66. 被引量：21
10刘静霞,史云兵,徐鲁强.情感状态模糊识别的研究[J].四川师范大学学报（自然科学版）,2010,33(5):707-710. 被引量：3

同被引文献25

1李星毅,包从剑,施化吉.数据仓库中的相似重复记录检测方法[J].电子科技大学学报,2007,36(6):1273-1277. 被引量：25
2鲁均云,李星毅,施化吉,马素琴.基于内码序值聚类的相似重复记录检测方法[J].计算机应用研究,2010,27(3):874-878. 被引量：8
3肖满生,周浩慧,王宏.基于模糊综合评判的相似重复记录识别方法[J].计算机工程,2010,36(13):51-53. 被引量：14
4苗夺谦,王珏.粗糙集理论中概念与运算的信息表示[J].软件学报,1999,10(2):113-116. 被引量：250
5宗威,吴锋.大数据时代下数据质量的挑战[J].西安交通大学学报（社会科学版）,2013,33(5):38-43. 被引量：140
6宋金玉,陈爽,郭大鹏,王内蒙.数据质量及数据清洗方法[J].指挥信息系统与技术,2013,4(5):63-70. 被引量：31
7殷秀叶.大数据环境下的相似重复记录检测方法[J].武汉工程大学学报,2014,36(9):66-69. 被引量：6
8殷秀叶.大数据环境下一种高效的重复记录检测方法[J].洛阳师范学院学报,2014,33(11):52-54. 被引量：2
9朱蔚恒,印鉴,邓玉辉,龙舜,邱诗定.大数据环境下高维数据的快速重复检测方法[J].计算机研究与发展,2016,53(3):559-570. 被引量：12
10韩玉,李美聪,郭新辰.基于粗糙集理论的文本分类属性约简算法[J].东北电力大学学报,2016,36(5):92-96. 被引量：8

引证文献3

1陈建,张小红.信息熵与模糊综合评判融合的相似数据检测方法[J].计算机工程与应用,2018,54(24):57-60. 被引量：5
2陈彦萍,洪明杰,杨小宝.基于信息熵属性约简的相似重复记录检测方法[J].计算机与数字工程,2019,47(12):2966-2972. 被引量：2
3徐亮.应用量子粒子群算法优化神经网络的数据库重复记录检测[J].微型电脑应用,2022,38(1):142-144. 被引量：1

二级引证文献8

1行金玲,牛乐.高校教师职业能力熵权模糊综合评价研究[J].柳州职业技术学院学报,2020,0(1):42-47. 被引量：4
2张伟,吴伟东,王寅寅,高尚.一种大学生教育教学成绩综合考核评价方法[J].广西科技师范学院学报,2019,34(6):130-134. 被引量：1
3魏建红,吴军良,徐涢基,高杰.集群网络可组合信息流多阶段优化检测仿真[J].计算机仿真,2019,36(12):411-414.
4黄妙芬,杨光照,邢旭峰,黄山,杨锋,卓永强.构建岸基雷达网辅助海上执法智能平台的关键技术分析[J].海洋技术学报,2020,39(2):64-70. 被引量：7
5栗风永,周刚.结合特征选择和优化随机森林的无线网络数据丢失重建[J].上海电力大学学报,2020,36(3):251-258. 被引量：1
6赵敏.并行多路径传输过程数据相似性检测仿真[J].计算机仿真,2021,38(9):181-184. 被引量：1
7徐亮.应用量子粒子群算法优化神经网络的数据库重复记录检测[J].微型电脑应用,2022,38(1):142-144. 被引量：1
8沈小龙,马金全,胡泽明,李娜,李宇东.面向异构信号处理平台的量子调度算法[J].电子科技,2024,37(3):84-90.

1陈伟,王昊,朱文明.一种提高相似重复记录检测精度的方法[J].计算机应用与软件,2006,23(10):29-30. 被引量：8
2鲁均云,李星毅,施化吉,马素琴.基于内码序值聚类的相似重复记录检测方法[J].计算机应用研究,2010,27(3):874-878. 被引量：8
3李星毅,包从剑,施化吉.数据仓库中的相似重复记录检测方法[J].电子科技大学学报,2007,36(6):1273-1277. 被引量：25
4戴颖,李兴国,赵启飞.一种相似重复记录检测算法的改进研究[J].计算机技术与发展,2010,20(7):13-16. 被引量：4
5江峰,眭跃飞,曹存根.粗糙集中的距离度量与离群点检测[J].控制与决策,2013,28(2):188-192. 被引量：2
6肖蕾,郭乐江,唐晓.基于遗传神经网络的可扩展的相似重复记录检测系统设计与仿真[J].电子工程,2011(1):42-45.
7胡宏泽,章勇.RS-485总线和MODBUS-RTU协议的阀门测试系统[J].单片机与嵌入式系统应用,2014,14(3):39-42. 被引量：4
8林予松,王培培,刘炜,李润知,王宗敏.医疗体检数据预处理方法研究[J].计算机应用研究,2017,34(4):1089-1092. 被引量：7
9王晓原,吴芳,邢丽.交通流冗余数据识别和约简方法[J].计算机应用,2009,29(4):1110-1113.
10邹杰慧.基于分层模型的FlexRay车载网络容错检错机制研究[J].井冈山大学学报（自然科学版）,2009,30(4):27-30.

江苏师范大学学报（自然科学版）

2016年第1期

浏览历史

内容加载中请稍等...

基于二次模糊评判的相似重复记录检测方法被引量：3

参考文献17

二级参考文献162

共引文献155

同被引文献25

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于二次模糊评判的相似重复记录检测方法 被引量：3

参考文献17

二级参考文献162

共引文献155

同被引文献25

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于二次模糊评判的相似重复记录检测方法被引量：3