基于遗传神经网络的相似重复记录检测方法被引量：13

Approximately duplicate record detection method based on neural network and genetic algorithm

下载PDF

导出

摘要为了有效解决数据清洗领域中相似重复记录的检测问题,提出了一种基于遗传神经网络的相似重复记录检测方法。该方法计算两条记录对应字段间的相似度,构建基于神经网络的检测模型,利用遗传算法对网络模型的权值进行优化,使用遗传神经网络组合多个字段上的相似度来检测相似重复记录。在不同领域数据集上的测试结果表明,该方法能够提高相似重复记录检测的准确率和检测精度。 In order to solve the problem of approximately duplicate record detection in the field of data cleaning effectively,a method based on neural network and genetic algorithm is proposed.Firstly,this method measures the similarity of each corresponding field pairs in the two records.Then a model based on neural network for detection is constructed,and genetic algorithm is adopted to optimize the weights of the neural network model.Finally,the neural network trained on some samples is used to classify the record pair in duplicate or non-duplicate one.Experimental results on a range of datasets show that this method improves the accuracy and precision of duplicate detection over traditional methods.

作者孟祥逢鲁汉榕郭玲

机构地区空军雷达学院研究生管理大队空军雷达学院信息与指挥自动化系

出处《计算机工程与设计》 CSCD 北大核心 2010年第7期1550-1553,共4页 Computer Engineering and Design

基金国家863高技术研究发展计划基金项目(2009AAJ127)

关键词相似重复记录检测神经网络遗传算法数据清洗数据集成 approximately duplicate record detection neural network genetic algorithm data cleaning data integration

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1张冬至,夏伯锴,曾蕾蕾.基于遗传神经网络的多传感器信息融合及应用[J].传感器与微系统,2007,26(4):40-42. 被引量：5
2爨.基于遗传变异与BP混合算法的抽油井流入动态预测[J].计算机应用,2004,24(8):38-40. 被引量：1
3葛利.一种基于混合遗传算法学习的过程神经网络[J].哈尔滨工业大学学报,2005,37(7):986-988. 被引量：21
4邱越峰,田增平,季文贇,周傲英.一种高效的检测相似重复记录的方法[J].计算机学报,2001,24(1):69-77. 被引量：72
5覃华,苏一丹,李陶深.基于遗传神经网络的数据清洗方法[J].计算机工程与应用,2004,40(3):45-46. 被引量：11
6黄健斌,姬红兵.基于模糊概念格的Web搜索结果聚类算法[J].西安电子科技大学学报,2005,32(6):856-860. 被引量：6

二级参考文献31

1林国玺,宣慧玉.遗传算法和BP人工神经网络在税收预测中的应用[J].系统工程理论方法应用,2005,14(2):145-148. 被引量：19
2张乃禄,薛朝妹,徐竟天,张家田.原油含水率测量技术及其进展[J].石油工业技术监督,2005,21(11):25-28. 被引量：51
3[1]Bitton D， DeWitt D J. Duplicate record elimination in large data files. ACM Trans Database Systems, 1983, 8(2):255-65
4[2]Hernandez M， Stolfo S. The Merge/Purge problem for large databases. In: Proc ACM SIGMOD International Conference on Management of Data, 1995. 127-138
5[3]Howard B Newcombe, Kennedy J M, Axford S J, James A P. Automatic linkage of vital records. Science, 1959, 130:954-959
6[4]DeWitt D J, Naught J F, Schneider D A. An evaluation of non-equijoin algorithms. In: Proc 17th International Conference on Very Large Databases, Barcelona, Spain, 1991. 443-452
7[5]Hylton J A. Identifying and merging related bibliographic records[MS dissertation]. MIT: MIT Laboratory for Computer Science Technical Report 678， 1996
8[6]Monge A E， Elkan C P. An efficient domain-independent algorithm for detecting approximately duplicate database records. In: Proc DMKD'97, Tucson Arizona, 1997
9[7]Kukich K. Techniques for automatically correcting words in text. ACM Computing Surveys, 1992, 24(4):377-439
10[8]Wagner R A， Fischer M J. The string-to-string correction problem. J ACM, 1974, 21(1):168-173

共引文献109

1缪嘉嘉,吴刚,毛捍东,杨强,邓苏.一种基于条件概率分布的近似重复记录检测方法[J].小型微型计算机系统,2004,25(12):2164-2168. 被引量：3
2孟坚,董逸生,王永利.一种基于规则的交互式数据清洗技术[J].微机发展,2005,15(4):141-144. 被引量：4
3王志军,乐嘉锦.一种中文相似重复记录的检测方法[J].东华大学学报（自然科学版）,2005,31(2):37-40.
4肖国荣.银行零售贷款风险管理系统分析[J].福建电脑,2006,22(7):140-141.
5朱恒民,王宁生.一种改进的相似重复记录检测方法[J].控制与决策,2006,21(7):805-808. 被引量：12
6黄健斌,姬红兵,孙鹤立.近似重复记录的自适应距离度量检测[J].西安电子科技大学学报,2007,34(2):331-336. 被引量：2
7朱六璋.调度信息系统的数据清洗应用[J].电力信息化,2007,5(4):66-69. 被引量：1
8李兴森,石勇,鹿盟,申爱华.低质量数据下的知识获取方案研究[J].当代经济管理,2007,29(3):78-83. 被引量：2
9韩京宇,徐立臻,董逸生.数据质量研究综述[J].计算机科学,2008,35(2):1-5. 被引量：102
10葛利,陈广胜.基于过程神经网络的木材生长轮密度预测[J].林业科学,2008,44(1):124-127. 被引量：3

同被引文献118

1Serge Kokot.Authentication of Cassia seeds on the basis of two-wavelength HPLC fingerprinting with the use of chemometrics[J].Chinese Chemical Letters,2010,21(2):213-216. 被引量：5
2金连,王宏志,黄沈滨,高宏.基于Map-Reduce的大数据缺失值填充算法[J].计算机研究与发展,2013,50(S1):312-321. 被引量：18
3陈伟,丁秋林.一种XML相似重复数据的清理方法研究[J].北京航空航天大学学报,2004,30(9):835-838. 被引量：7
4陈振洲,李磊,姚正安.基于SVM的特征加权KNN算法[J].中山大学学报（自然科学版）,2005,44(1):17-20. 被引量：51
5葛利.一种基于混合遗传算法学习的过程神经网络[J].哈尔滨工业大学学报,2005,37(7):986-988. 被引量：21
6包健,赵建勇,周华英.基于BP网络曲线拟合方法的研究[J].计算机工程与设计,2005,26(7):1840-1841. 被引量：21
7李建生,胡金亮,余学庆,王明航,王永炎.基于聚类分析的径向基神经网络用于证候诊断的研究[J].中国中医基础医学杂志,2005,11(9):685-687. 被引量：40
8刘伟,曹先彬.对基于MPN的相似重复记录识别算法的改进[J].微计算机信息,2005,21(08X):147-149. 被引量：6
9傅祖植.糖尿病与高血压[J].中华内分泌代谢杂志,2005,21(5). 被引量：38
10张晓文,杨煜普,许晓鸣.神经网络传递函数的功能分析与仿真研究[J].计算机仿真,2005,22(10):176-178. 被引量：10

引证文献13

1邓慧挺,毛宇光.不确定数据的重复记录检测[J].计算机技术与发展,2012,22(8):60-62.
2周典瑞,周莲英.海量数据的相似重复记录检测算法[J].计算机应用,2013,33(8):2208-2211. 被引量：11
3唐慧强,刘钲江,李全月.硫氮分析系统异常值自动甄别与纠错方法研究[J].传感器与微系统,2013,32(9):42-45. 被引量：1
4郭文龙.一种改进的相似重复记录检测算法[J].计算机应用与软件,2014,31(1):293-295. 被引量：7
5陈芬.改进量子粒子群算法优化神经网络的数据库重复记录检测[J].计算机应用与软件,2014,31(3):20-21. 被引量：10
6马威,马飞,郭荣,耿晓光.GA-BP网络在凿岩防卡阀推进压力预测中的应用[J].工矿自动化,2016,42(7):44-50. 被引量：2
7王闪,谭良.Web大数据环境下的相似重复数据清理[J].计算机工程与设计,2017,38(3):646-651. 被引量：14
8杨朔,杨威,陶砾,金凤飞.基于神经网络与MapReduce的科技云数据清洗模型[J].计算机时代,2017(7):6-9. 被引量：1
9吴燎,程小恩.基于共轭梯度下降算法的BP神经网络的中医糖尿病诊断模型研究[J].电脑知识与技术,2019,15(8Z):218-221. 被引量：2
10吴燎.BP神经网络在中医疾病诊断中的实现[J].电脑知识与技术,2019,15(8):200-202. 被引量：2

二级引证文献53

1高继梅.隐私保护数据库中自适应重复数据删除仿真[J].计算机仿真,2019,36(1):239-242. 被引量：1
2王娜.基于Web的工程技能考试系统的设计与实现[J].自动化与仪器仪表,2019(2):92-95. 被引量：2
3殷秀叶.大数据环境下的相似重复记录检测方法[J].武汉工程大学学报,2014,36(9):66-69. 被引量：6
4殷秀叶.大数据环境下一种高效的重复记录检测方法[J].洛阳师范学院学报,2014,33(11):52-54. 被引量：2
5邓文佶.基于Lbest PSO和NNs的电液伺服系统输出力PID控制研究[J].计算机应用与软件,2015,32(8):102-105.
6谢文阁,佟玉军,贾丹,梅红岩.数据清洗中重复记录清洗算法的研究[J].软件工程师,2015(9):61-62. 被引量：5
7黄日胜,黄锡波.基于加速参数自调整粒子群算法的物流配送优化模型[J].计算机应用与软件,2015,32(10):328-333. 被引量：3
8郭文龙,董建怀.基于模糊综合评判的相似重复记录清洗方法[J].北京信息科技大学学报（自然科学版）,2017,32(4):59-63. 被引量：3
9黄建琼.基于二次模糊评判的相似重复记录检测方法[J].江苏师范大学学报（自然科学版）,2016,34(1):39-42. 被引量：3
10刘东明.一种面向效率和安全性同时提高的数据库优化方法[J].软件工程,2016,19(3):1-5.

1吴庆辉,蔡海洋,吕精巧.基于改进型遗传神经网络的相似重复记录检测[J].计算机测量与控制,2011,19(5):1021-1023. 被引量：3
2李鑫,李军,丰继林,高方平,李忠.面向相似重复记录检测的特征优选方法[J].传感器与微系统,2011,30(2):37-40. 被引量：1
3曹小峰.基于相似重复记录检测的特征优选方法研究[J].计算机工程与设计,2009,30(23):5492-5495. 被引量：3
4杨家娥.相似重复记录检测的特征优选策略探究[J].无线互联科技,2014,11(5):172-172.
5林盾,李建生.Hopfield网络在系统优化设计中的应用[J].湘潭师范学院学报（自然科学版）,2008,30(4):4-7. 被引量：1
6殷秀叶.大数据环境下一种高效的重复记录检测方法[J].洛阳师范学院学报,2014,33(11):52-54. 被引量：2
7侯筱婷,鲁萍.SQL存储过程实现相似重复记录检测[J].软件导刊,2011,10(7):28-29. 被引量：3
8胡嘉琪,陈群,刘海龙,杜晶,徐曜,李战怀.基于Web的重复属性自动识别方法[J].计算机工程与应用,2015,51(9):125-128.
9张昌年.一种基于VSM的检测相似重复记录的方法[J].微电子学与计算机,2008,25(8):184-187. 被引量：10
10缪嘉嘉,李爱平,贾焰,吴泉源.信息集成中数据获取关键技术的研究[J].计算机研究与发展,2007,44(z3):452-457.

计算机工程与设计

2010年第7期

浏览历史

内容加载中请稍等...

基于遗传神经网络的相似重复记录检测方法被引量：13

参考文献6

二级参考文献31

共引文献109

同被引文献118

引证文献13

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

基于遗传神经网络的相似重复记录检测方法 被引量：13

参考文献6

二级参考文献31

共引文献109

同被引文献118

引证文献13

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

基于遗传神经网络的相似重复记录检测方法被引量：13