一种融合多种编辑距离的字符串相似度计算方法被引量：41

New method of character string similarity compute based on fusing multiple edit distances

下载PDF

导出

摘要针对中西文混合字符串,采用了将汉字作为西文字符的等价单位计算编辑距离的方法,并从输入法的角度提出了采用拼音编码和五笔编码计算编辑距离的方法,最后给出了融合三种编辑距离计算字符串相似度的算法。仿真结果表明,该方法在提高相似重复记录检测的查全率的同时,也能获得较高的查准率。 The Chinese character is treated as the equivalent of western character when computing edit distance of strings composed of Chinese and western characters. Considering from Chinese input methods,this paper proposed a new way to calculate edit distance based on PinYin code and WuBi code of Chinese character. Also proposed the algorithm of fusing three edit distances to get string similarity. Experiment results show that the new method can improve the recall rate of approximately duplicate records detection,besides getting high precision rate.

作者刁兴春谭明超曹建军

机构地区解放军理工大学指挥自动化学院解放军总参第

出处《计算机应用研究》 CSCD 北大核心 2010年第12期4523-4525,共3页 Application Research of Computers

基金中国博士后科学基金资助项目(20090461425) 江苏省博士后科研资助计划项目(0901014B)

关键词数据清洗相似重复记录字符串匹配字符串相似度编辑距离 data cleaning approximately duplicate records string matching string similarity edit distance

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1曹建军刁兴春杜鷁等.信息质量研究框架概述.现代军事通信,2009,17(4):55-62.
2俞荣华,田增平,周傲英.一种检测多语言文本相似重复记录的综合方法[J].计算机科学,2002,29(1):118-121. 被引量：26
3邱越峰,田增平,季文贇,周傲英.一种高效的检测相似重复记录的方法[J].计算机学报,2001,24(1):69-77. 被引量：72
4LEE M L,LING T W,LOW W L.IntelliClean:a knowledge-based intelligent data cleaner[C] //Proc of the 6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Boston:ACM Press,2000:290-294.
5LEVENSHTEIN V I.Binary codes capable of correcting deletions,insertions and reversals[J].Soviet Physics Doklady,1966,10:707-710.
6LIANG Jin,CHEN Li,MEHROTRA S.Efficient record linkage in large data sets[C] //Proc of the 8th International Conference on Database System for Advanced Application.2003:137-146.
7MONGE A E,ELKAN C P.An efficient domain-independent algorithm for detection approximately duplicate database records[C] //Proc of DMKD'97.1997:23-29.

二级参考文献20

1[1]Bitton D， DeWitt D J. Duplicate record elimination in large data files. ACM Trans Database Systems, 1983, 8(2):255-65
2[2]Hernandez M， Stolfo S. The Merge/Purge problem for large databases. In: Proc ACM SIGMOD International Conference on Management of Data, 1995. 127-138
3[3]Howard B Newcombe, Kennedy J M, Axford S J, James A P. Automatic linkage of vital records. Science, 1959, 130:954-959
4[4]DeWitt D J, Naught J F, Schneider D A. An evaluation of non-equijoin algorithms. In: Proc 17th International Conference on Very Large Databases, Barcelona, Spain, 1991. 443-452
5[5]Hylton J A. Identifying and merging related bibliographic records[MS dissertation]. MIT: MIT Laboratory for Computer Science Technical Report 678， 1996
6[6]Monge A E， Elkan C P. An efficient domain-independent algorithm for detecting approximately duplicate database records. In: Proc DMKD'97, Tucson Arizona, 1997
7[7]Kukich K. Techniques for automatically correcting words in text. ACM Computing Surveys, 1992, 24(4):377-439
8[8]Wagner R A， Fischer M J. The string-to-string correction problem. J ACM, 1974, 21(1):168-173
9[9]Lowrance R， Robert A Wagner. An extension of the string-to-string correction problem. J ACM, 1975， 22(2):177-183
10[10] Sellers P H. On the theory and computation of evolutionary distances. SIAM J Applied Mathematics, 1974, 26(4):787-793

共引文献86

1缪嘉嘉,吴刚,毛捍东,杨强,邓苏.一种基于条件概率分布的近似重复记录检测方法[J].小型微型计算机系统,2004,25(12):2164-2168. 被引量：3
2孟坚,董逸生,王永利.一种基于规则的交互式数据清洗技术[J].微机发展,2005,15(4):141-144. 被引量：4
3王志军,乐嘉锦.一种中文相似重复记录的检测方法[J].东华大学学报（自然科学版）,2005,31(2):37-40.
4王咏梅,陈家琪,耿玉良.一种可交互的数据清洗系统[J].计算机工程与设计,2005,26(4):955-957. 被引量：7
5肖国荣.银行零售贷款风险管理系统分析[J].福建电脑,2006,22(7):140-141.
6朱恒民,王宁生.一种改进的相似重复记录检测方法[J].控制与决策,2006,21(7):805-808. 被引量：12
7陈伟,王昊,朱文明.一种提高相似重复记录检测精度的方法[J].计算机应用与软件,2006,23(10):29-30. 被引量：8
8韩京宇,徐立臻,董逸生.数据质量研究综述[J].计算机科学,2008,35(2):1-5. 被引量：102
9刘哲,夏秀峰,宋晓燕,林桐.一种中文地址类相似重复信息的检测方法[J].小型微型计算机系统,2008,29(4):726-729. 被引量：7
10郭小瑛,曾广平.基于Web2．0的数据集成系统的设计与实现[J].微电子学与计算机,2008,25(6):34-37. 被引量：2

同被引文献343

1徐志,陈冲,林武.基于模糊模式识别算法的学习型红外遥控器的编码压缩[J].福州大学学报（自然科学版）,2008,36(S1):61-64. 被引量：2
2赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
3田丰,牟书,戴国忠,王宏安.Post-WIMP环境下笔式交互范式的研究[J].计算机学报,2004,27(7):977-984. 被引量：29
4张立岩,张世民.基于语义相似度的主观题评分算法研究[J].河北科技大学学报,2012,33(3):263-265. 被引量：2
5臧艺兵.中国记谱法与中国哲学[J].中国音乐,1996(1):42-43. 被引量：11
6王国新,阎艳,张祥,胡立臣.面向坦克装甲车辆创新与快速设计的知识建模方法研究[J].兵工学报,2009,30(S1):100-105. 被引量：5
7曹犟,邬晓钧,夏云庆,郑方.基于拼音索引的中文模糊匹配算法[J].清华大学学报（自然科学版）,2009(S1):1328-1332. 被引量：14
8车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：63
9陈金富,陈海焱,段献忠,何朝阳,高文建.广西电网运行方式在线自动校核系统设计与应用[J].电力系统自动化,2004,28(14):82-84. 被引量：17
10冯志伟.汉字和汉语的计算机处理[J].当代语言学,2001,3(1):1-21. 被引量：23

引证文献41

1朱朦朦,武恺莉,洪宇,陈鑫,张民.面向问句复述识别的语义正交化匹配方法研究[J].中文信息学报,2021,35(11):34-42. 被引量：2
2王静婷.基于汉字聚类特征的中文字符串相似度计算研究[J].现代图书情报技术,2011(2):48-53. 被引量：6
3牛永洁,张成.多种字符串相似度算法的比较研究[J].计算机与数字工程,2012,40(3):14-17. 被引量：36
4牛永洁.RKR-GST算法在.NET中的分析与实现[J].信息技术,2012,36(3):171-174. 被引量：3
5陶佳燕,李银红,石东源,覃松涛,郑发林,蒙亮.EMS与继电保护定值校核系统实时数据匹配新方法[J].电力系统自动化,2012,36(10):79-85. 被引量：12
6黄林晟,邓志鸿,唐世渭,王文清,陈凌.基于编辑距离的中文组织机构名简称-全称匹配算法[J].山东大学学报（理学版）,2012,47(5):43-48. 被引量：13
7廖宏建,杨玉宝,唐连章.改进的编辑距离计算及其在自动评分中的应用[J].广州大学学报（自然科学版）,2012,11(4):79-83. 被引量：5
8黄铃,李学明.基于AdaBoost的微博垃圾评论识别方法[J].计算机应用,2013,33(12):3563-3566. 被引量：6
9陈思,阎艳,王钊,王国新.复杂产品设计知识的语义自动标注方法[J].计算机集成制造系统,2014,20(1):69-78. 被引量：7
10张敏,韩俊刚,李涛.基于Android平台差异化增量更新的实现[J].西安邮电大学学报,2014,19(1):82-85. 被引量：4

二级引证文献231

1司志博文,李少博,单丽莉,孙承杰,刘秉权.基于增量预训练和对抗训练的文本匹配模型[J].计算机系统应用,2022,31(11):349-357.
2吴汉东,李安.网络版权治理的算法技术与算法规则[J].网络法律评论,2020,20(1):78-101. 被引量：8
3唐坚,刘海燕.作战文书中部队番号的自动识别方法[J].兵器装备工程学报,2020,0(2):143-147. 被引量：1
4廖宏建,杨玉宝,唐连章.改进的编辑距离计算及其在自动评分中的应用[J].广州大学学报（自然科学版）,2012,11(4):79-83. 被引量：5
5朱晓华,李一泉,杨韵,邱建,张葆红,罗跃胜,李银红.继电保护定值审核专家库系统[J].广东电力,2013,26(7):78-81. 被引量：4
6杨增力,王友怀,周虎兵,朱林,周特军,王春艺.保护定值在线校核系统与故障信息系统接口技术及应用[J].水电能源科学,2013,31(9):216-219.
7何政,刘耀龙.地震动与损伤模型对结构失效影响的统计分析[J].沈阳工业大学学报,2013,35(5):580-586. 被引量：8
8杨平,刘在英.基于相对链码和改进LCS算法的图形匹配实现[J].计算机与现代化,2013(12):106-109. 被引量：1
9滕广青,毕达天,任晶,陈晓美.Folksonomy中用户标签的语义紧密性研究[J].现代图书情报技术,2013(12):48-54. 被引量：7
10张敏,韩俊刚,李涛.基于Android平台差异化增量更新的实现[J].西安邮电大学学报,2014,19(1):82-85. 被引量：4

1肖雨,崔荣一,怀丽波.一种融合位置信息的字符串相似度度量方法[J].计算机应用研究,2015,32(11):3287-3290. 被引量：3
2李彬.计算字符串相似度的矩阵算法[J].现代电子技术,2007,30(24):106-108. 被引量：7
3杜利峰,牛永洁.字符串相似度在自动评分系统中的应用[J].电子设计工程,2011,19(7):42-44. 被引量：11
4张光芬.对计算机几种常用汉字输入系统拼音编码的研讨和比较[J].电脑,1994(11):31-31.
5周易达,陈春江.一种利用XENIX＆ OCI—C的拼音编码自动化的方法[J].新浪潮,1996(10):56-57.
6王明思.汉语拼音编码能演变成一种文字码？[J].中文信息,1991(1):74-75.
7PC Animal.“甜似蜜”蜂房小技巧(之系统应用篇)[J].电脑应用文萃（电脑界配套光盘）,2002(10):48-48.
8刘辉平,金澈清,周傲英.一种基于模式的实体解析算法[J].计算机学报,2015,38(9):1796-1808. 被引量：6
9韩雪婷,李炜,沈奇威.用户评论中产品特征的抽取及聚类[J].计算机系统应用,2013,22(5):188-192. 被引量：7
10章成志.基于多层特征的字符串相似度计算模型[J].情报学报,2005,24(6):696-701. 被引量：39

计算机应用研究

2010年第12期

浏览历史

内容加载中请稍等...

一种融合多种编辑距离的字符串相似度计算方法被引量：41

参考文献7

二级参考文献20

共引文献86

同被引文献343

引证文献41

二级引证文献231

相关作者

相关机构

相关主题

浏览历史

一种融合多种编辑距离的字符串相似度计算方法 被引量：41

参考文献7

二级参考文献20

共引文献86

同被引文献343

引证文献41

二级引证文献231

相关作者

相关机构

相关主题

浏览历史

一种融合多种编辑距离的字符串相似度计算方法被引量：41