基于改进型遗传神经网络的相似重复记录检测被引量：3

Genetic Neural Network for Detection of Approximately Duplicate Records

下载PDF

导出

摘要本文提出一种基于遗传神经网络的相似重复记录检测方法,充分利用了神经网络的非线性映射和遗传算法的全局优化特性,将基于学习的思想和进化的思想有效结合并应用到重复记录检测中,避开了传统方法计算属性权重的问题,并对遗传神经网络进行改进。实验结果表明本文方法能够有效地解决大数据量的相似重复记录检测问题,不仅具有好的检测精度,而且具有很好的时间效率。 This paper presents a genetic neural network for detection of approximately duplicate records by full use of non-linear mapping of neural networks and global optimization features of genetic algorithms.Learning-based ideas and the evolution of thinking is applied to the detection of duplicate records,avoiding the traditional method attribute weight problem.Experimental results show that this method can effectively solve the large data volume of approximately duplicated records detection of problems,not only has good detection accuracy,but also has good time efficiency.

作者吴庆辉蔡海洋吕精巧

机构地区解放军三七一中心医院新乡医学院新乡医学院图书馆

出处《计算机测量与控制》 CSCD 北大核心 2011年第5期1021-1023,共3页 Computer Measurement &Control

基金河南省科技计划重点项目(102102210191) 河南省教育厅自然科学研究资助计划项目(2009A520013)

关键词相似重复记录遗传算法神经网络数据清洗 approximately duplicate records detection genetic algorithms neural network data cleaning

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1邱越峰,田增平,季文贇,周傲英.一种高效的检测相似重复记录的方法[J].计算机学报,2001,24(1):69-77. 被引量：72
2郭志懋,周傲英.数据质量和数据清洗研究综述[J].软件学报,2002,13(11):2076-2082. 被引量：268
3Elmagarmid A K, Ipeirotis P G, Verykios V S. Duplicate Record Detection: A Survey [J]. IEEE Transactions on Knowledge and Data Engineering, 2007, 19 (1) :1 - 16.
4Huang L I, Jin H, Yuan P P, et al. Duplicate Records Cleansing with Length Filtering and Dynamic Weighting [A]. Fourth International Conference on Semantics, Knowledge and Grid [C]. 2008: 95 - 102.
5Hernandez M, Stolfo S. The Merge Purge Problem for Large Databases[M]. New York, USA: ACM Press, 1995: 127-138.
6Monge A E, Elkan C R An Efficient Domain--independent Algorithm for Detecting Approximately Duplicate Database Records [A].Proc. of Workshop on Research Issues on Data Mining and Knowledge Discovery [C]. Tucson, Arizona, USA. 1997: 23 - 29.
7Gravano L, Ipeirotis P G Using Q grams in DBMS for Approximate String Processing [J].IEEE Data Engineering Bulletin, 2001, 24 (4): 28-34.
8Lee M L, Lu Hongjun, Ling T wet al. Cleansing Data for Mining and Warehousing [A].Proc of the 10th Int Conf on Database and Exper Systems Applications [C]. Florence, Italy: 1999. 751 - 760.
9张昌年.一种基于VSM的检测相似重复记录的方法[J].微电子学与计算机,2008,25(8):184-187. 被引量：10
10韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32

二级参考文献91

1刘豹.模糊工程[J].决策与决策支持系统,1995(3):1-5. 被引量：2
2程国达,苏杭丽.一种检测汉语相似重复记录的有效方法[J].计算机应用,2005,25(6):1362-1365. 被引量：8
3倪维健,黄亚楼,李飞,刘赏.一种基于加权多代表点的层次聚类算法[J].计算机科学,2005,32(5):150-154. 被引量：5
4徐宗本,李国.解全局优化问题的仿生类算法(I)—模拟进化算法[J].运筹学杂志,1995,14(2):1-13. 被引量：39
5郭俊,樊彦国.一种改进的CURE聚类算法[J].内蒙古石油化工,2005,31(8):12-15. 被引量：4
6恽为民,席裕庚.遗传算法的运行机理分析[J].控制理论与应用,1996,13(3):297-304. 被引量：78
7王丽薇,洪勇,洪家荣.遗传算法的收敛性研究[J].计算机学报,1996,19(10):794-797. 被引量：31
8席裕庚,柴天佑,恽为民.遗传算法综述[J].控制理论与应用,1996,13(6):697-708. 被引量：347
9恽为民,席裕庚.遗传算法的全局收敛性和计算效率分析[J].控制理论与应用,1996,13(4):455-460. 被引量：113
10张晓缋,方浩,戴冠中.遗传算法的编码机制研究[J].信息与控制,1997,26(2):134-139. 被引量：93

共引文献641

1梁莉莉,布瑞丰.非遗视频直播的技术逻辑及其潜在风险——基于抖音平台的“田野”观察[J].青海民族研究,2022,33(3):136-141. 被引量：5
2王利民,李硕硕,王学鑫,冯志江,司亚超,邓全才,吴永强.基于grubbs检验的中水压力数据清洗[J].河北建筑工程学院学报,2022,40(4):144-147.
3丁小欧,王宏志,靳贺霖,高猛.时序数据错误检测与修复研究综述[J].智能计算机与应用,2021,11(12):1-6. 被引量：5
4郑建斌,杨小曼,刘辉,仲红波.遗传小波神经网络用于极谱信号的滤噪[J].西北大学学报（自然科学版）,2002,32(5):447-450. 被引量：5
5王爽,段红,黄友锐.基于改进的活动轮廓模型在图像分割中的应用[J].微计算机信息,2008,24(1):274-275. 被引量：12
6李沅,张立毅.基于遗传算法神经网络盲均衡算法的研究[J].太原理工大学学报,2006,37(S1):69-71. 被引量：4
7丁建立,陈增强,袁著祉.基于混合蚂蚁算法的网络资源均衡与优化[J].仪器仪表学报,2003,24(z1):592-594. 被引量：11
8刘芳,李人厚.基于模糊推理的进化规划用于神经网络设计[J].小型微型计算机系统,2003,24(1):127-129.
9周力,张勃.向Oracle进行数据移植的方法[J].沈阳大学学报,2003,15(2):38-39. 被引量：3
10宋峥嵘,朴春梅.数据质量与数据清理浅谈[J].今日科苑,2009(17).

同被引文献34

1赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
2王小华,卢小康.基于N-Gram的文本去重方法研究[J].杭州电子科技大学学报（自然科学版）,2010,30(2):61-64. 被引量：5
3Pahwa P,Arora R,Thakur G.An efficient algorithm for data cleaning[J].International Journal of Knowledge-Based Organizations(IJKBO),2011(4):56-71.
4Gravano L.Using Q-grams in fl DBMS for approximate string processing[J].IEEE Transactions on Knowledge and Data Engineering,2001,24(4):28-34.
5Hernandez M A,Stolfo S J.Real-world data is dirty:data cleansing and the merge/purge problem[J].Data Mining and Knowledge Discovery,1998,2(1):9-37.
6Hernandez M,Stolfo S.The merge/purge problem for large databases[C]//Proceedings of the ACM SIGMOD International Conference on Management of Data,San Jose,California,1995:127-138.
7Zhang Zhongnan,He Ling,Tan Yize,et al.A heuristic approximately duplicate records detection algorithm based on attributes analysis[J].International Journal of Digital Content Technology&its Applications,2012,6(4):259-267.
8Liu X,Li G,Feng J,et al.Effective indices for efficient approximate string search and similarity join[C]//Proceedings of the 9th International Conference on Web-Age Information Management,Zhangjiajie,China,2008:127-134.
9李星毅,包从剑,施化吉.数据仓库中的相似重复记录检测方法[J].电子科技大学学报,2007,36(6):1273-1277. 被引量：25
10寇月,申德荣,李冬,聂铁铮.一种基于语义及统计分析的DeepWeb实体识别机制[J].软件学报,2008,19(2):194-208. 被引量：18

引证文献3

1郭文龙.基于长度过滤和有效权值的SNM改进算法[J].计算机工程与应用,2014,50(19):123-127. 被引量：7
2贾清,杨抒.基于Word2vec的克隆代码检测方法研究[J].计算机技术与发展,2020,30(8):124-128. 被引量：2
3顾晴,董永权,胡杨.相似重复记录检测研究与发展动态的知识图谱分析[J].计算机应用与软件,2022,39(3):1-7. 被引量：1

二级引证文献10

1刘雅思,程力,李晓.基于长度过滤和动态容错的SNM改进算法[J].计算机应用研究,2017,34(1):147-150. 被引量：9
2涂静文.大数据库的相似记录检测方法研究[J].计算机仿真,2017,34(3):410-413. 被引量：3
3杨晓东,李军,王继荣,王芳.基于增量自适应的邻近排序算法优化[J].青岛大学学报（自然科学版）,2017,30(2):53-57. 被引量：2
4郭文龙,董建怀.基于模糊综合评判和长度过滤的SNM改进算法[J].武汉工程大学学报,2017,39(4):403-408. 被引量：1
5陈力,费洪晓,丁海伦,成琳,翟纪宇.基于双决策树的数据采样方法[J].计算机工程与科学,2019,41(1):130-135. 被引量：9
6王力.基于视频弹幕的特征发现及情感分析研究[J].计算机技术与发展,2022,32(1):141-146. 被引量：3
7顾晴,董永权,胡杨.相似重复记录检测研究与发展动态的知识图谱分析[J].计算机应用与软件,2022,39(3):1-7. 被引量：1
8周世杰,娄渊胜.基于字段过滤和伸缩窗口的SNM算法优化[J].计算机工程与科学,2022,44(4):699-706. 被引量：1
9徐莉,刘威,常兴治.改进型SimHash算法用于代码数据相似度检测[J].福建电脑,2023,39(6):41-45. 被引量：2
10张雪妍,闫海峰,李晓辉,李滟郦,孔维远,朱翠玲.基于科学知识图谱的证候演变规律研究可视化分析[J].中西医结合心脑血管病杂志,2024,22(19):3470-3476.

1李鑫,李军,丰继林,高方平,李忠.面向相似重复记录检测的特征优选方法[J].传感器与微系统,2011,30(2):37-40. 被引量：1
2曹小峰.基于相似重复记录检测的特征优选方法研究[J].计算机工程与设计,2009,30(23):5492-5495. 被引量：3
3马翔.基于粒子群优化BP神经网络的重复记录检测方法[J].湖南涉外经济学院学报,2010,0(4):68-70. 被引量：1
4马翔.粒子群优化BP神经网络用于重复记录检测[J].辽宁工程技术大学学报（自然科学版）,2010,29(5):959-962. 被引量：4
5杨家娥.相似重复记录检测的特征优选策略探究[J].无线互联科技,2014,11(5):172-172.
6孟祥逢,鲁汉榕,郭玲.基于遗传神经网络的相似重复记录检测方法[J].计算机工程与设计,2010,31(7):1550-1553. 被引量：13
7韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
8刘喜文,郑昌兴,王文龙,汤刚强.构建数据仓库过程中的数据清洗研究[J].图书与情报,2013(5):22-28. 被引量：18
9殷秀叶.大数据环境下的相似重复记录检测方法[J].武汉工程大学学报,2014,36(9):66-69. 被引量：6
10殷秀叶.大数据环境下一种高效的重复记录检测方法[J].洛阳师范学院学报,2014,33(11):52-54. 被引量：2

计算机测量与控制

2011年第5期

浏览历史

内容加载中请稍等...

基于改进型遗传神经网络的相似重复记录检测被引量：3

参考文献16

二级参考文献91

共引文献641

同被引文献34

引证文献3

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于改进型遗传神经网络的相似重复记录检测 被引量：3

参考文献16

二级参考文献91

共引文献641

同被引文献34

引证文献3

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于改进型遗传神经网络的相似重复记录检测被引量：3