Levenshtein算法优化及在题库判重中的应用被引量：1

Optimization of the Levenshtein algorithm and its application in repeatability judgment for test bank

下载PDF

导出

摘要为了解决Levenshtein距离算法在长文本和大规模匹配效率的不足,本文针对Levenshtein距离算法提出一种提前终止的优化策略.首先根据Levenshtein距离矩阵中元素内在的联系,归纳总结出一个递推关系式.再依据此递推关系式,提出一种提前终止策略,可提前判断两个文本是否满足预先设定的相似度阈值.经过多个学科题库判重实验的佐证,本文的提前终止策略能显著减少计算时间. In order to overcome the disadvantages of the Levenshtein distance algorithm for long text and large-scale matching, we propose an early termination strategy for the Levenshtein distance algorithm. Firstly, according to the intrinsic relationship between elements in the Levenshtein distance matrix, we sum up a recurrence relation. Based on this relation, an early termination strategy is proposed to determine early-on whether two texts satisfy the predefined similarity threshold. Through several tests on different subjects, it is demonstrated that the early termination strategy can significantly reduce calculation time.

作者张衡陈良育 ZHANG Heng;CHEN Liang-yu(Shanghai Key Laboratory of Trustworthy Computing,East China Normal University,Shanghai 200062,China)

机构地区华东师范大学上海市高可信计算重点实验室

出处《华东师范大学学报（自然科学版）》 CAS CSCD 北大核心 2018年第5期154-163,共10页 Journal of East China Normal University(Natural Science)

基金国家自然科学基金(11471209)

关键词题库匹配文本相似度 Levenshtein编辑距离 bank match text similarity Levenshtein edit distance

分类号 TP311.5 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1章成志.基于多层特征的字符串相似度计算模型[J].情报学报,2005,24(6):696-701. 被引量：39
2邵清,叶琨.基于编辑距离和相似度改进的汉字字符串匹配[J].电子科技,2016,29(9):7-11. 被引量：17
3廖宏建,杨玉宝,唐连章.改进的编辑距离计算及其在自动评分中的应用[J].广州大学学报（自然科学版）,2012,11(4):79-83. 被引量：5
4玛依热.依布拉音,米吉提.阿不里米提,艾斯卡尔.艾木都拉.基于最小编辑距离的维语词语检错与纠错研究[J].中文信息学报,2008,22(3):110-114. 被引量：11
5姜华,韩安琪,王美佳,王峥,吴雲玲.基于改进编辑距离的字符串相似度求解算法[J].计算机工程,2014,40(1):222-227. 被引量：71
6何锋,谷锁林,陈彦辉.基于编辑距离相似度的文本校验技术研究与应用[J].飞行器测控学报,2015,34(4):389-394. 被引量：12

二级参考文献54

1赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
2曹犟,邬晓钧,夏云庆,郑方.基于拼音索引的中文模糊匹配算法[J].清华大学学报（自然科学版）,2009(S1):1328-1332. 被引量：14
3车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：63
4古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量：39
5章成志.基于多层特征的字符串相似度计算模型[J].情报学报,2005,24(6):696-701. 被引量：39
6范立新.改进的中文近似字符串匹配算法[J].计算机工程与应用,2006,42(34):172-174. 被引量：8
7米吉提·阿布力米提,等.维吾尔语中的语音和谐规律及算法的实现[A].中国科协2005年会[C].
8米吉提·阿布力米提,古丽拉·阿东别克.新疆少数民族多文种文字处理技术[A].中日自然语言处理国际研讨会[C].北京大学,2001.11.
9海米体·铁木尔.现代维吾尔语语法(形态学)[M].北京:民族出版社,1987.
10米吉提·阿不力米提,艾斯卡尔·艾木都拉吐尔地·托合提.维语词法分析器研究开发[A].全国第11届少数民族语言文字信息处理学术研讨会[C].西双版纳:2007.

共引文献142

1赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
2李彬.计算字符串相似度的矩阵算法[J].现代电子技术,2007,30(24):106-108. 被引量：7
3沙莎,胡发连.基于概念结构的科技论文知识管理[J].情报学报,2007,26(6):858-862.
4杨思春,陈家骏.中文自动问答中句子相似度计算研究[J].情报学报,2008,27(1):35-41. 被引量：5
5章成志,周冬敏.自动标引通用评价模型研究[J].情报学报,2009,28(1):40-47. 被引量：6
6赵欢,李仁发,王家琴,张在美.综合多层信息的本体概念相似度计算方法的研究[J].通信学报,2009,30(6):135-141. 被引量：2
7赵珊,汤永利.基于文本检索技术的CBIR算法研究[J].光学学报,2009,29(10):2721-2725. 被引量：1
8陆勇,章成志,侯汉清.基于百科资源的多策略中文同义词自动抽取研究[J].中国图书馆学报,2010,36(1):56-62. 被引量：26
9王莉,高仲利.基于分面导航理论的RDF数据的持久化研究[J].计算机工程与应用,2010,46(9):130-133. 被引量：6
10贺超波,陈启买.基于本体的Web服务发现方法研究[J].计算机工程与设计,2010,31(7):1421-1423. 被引量：4

同被引文献6

1冷强奎,秦玉平,王春立.基于句子相似度的论文抄袭检测模型研究[J].计算机工程与应用,2011,47(24):199-201. 被引量：9
2薛峰,梁锋,徐书勋,王彪任.基于Spring MVC框架的Web研究与应用[J].合肥工业大学学报（自然科学版）,2012,35(3):337-340. 被引量：104
3曾俊国,罗刚.基于MVC的高校毕业论文管理系统研究[J].成都工业学院学报,2013,16(2):18-21. 被引量：4
4史新华,刘敏,陈润航,陈奇.研究生学位论文外审评阅Web系统分析与设计[J].实验室研究与探索,2018,37(3):136-139. 被引量：3
5杨德石,李金忠,叶晓鑫,胡运全.基于SSM框架的题库和试卷管理系统的设计与实现[J].井冈山大学学报（自然科学版）,2018,39(4):49-59. 被引量：6
6于万国,傅冬颖,马军,赵彦明,李阔,胡新月.基于B/S架构的高校毕业论文管理系统的设计与实现[J].河北北方学院学报（自然科学版）,2017,33(5):27-34. 被引量：5

引证文献1

1王宇,夏丽丽,何颖刚.基于SSM框架的高校毕业论文管理系统的设计与实现[J].电子技术与软件工程,2021(22):26-29. 被引量：3

二级引证文献3

1周建楠,秦海超.铁路智能配线系统研究与应用[J].中国铁路,2022(3):144-149. 被引量：2
2杜瑛,刘冬杰.基于Spring Boot+Vue的场地预约管理系统的设计[J].电脑知识与技术,2022,18(23):31-32. 被引量：1
3高笛烟,黄泽豪,张栋.一个计算机配件价格查询微信小程序的设计与实现[J].电脑知识与技术,2022,18(25):49-52.

1刘文强,周波,马海峰,陶贵丽,韩娜.算法分析与设计课程中0-1背包问题的探讨[J].高师理科学刊,2018,38(6):82-85. 被引量：2
2于俊婷,赵晓潇,何宏业.一种基于字符包的Levenshtein句子匹配算法[J].数码设计,2017,0(8):19-21.
3藏润强,孙红光,杨凤芹,冯国忠,尹良亮.基于Levenshtein和TFRSF的文本相似度计算方法[J].计算机与现代化,2018(4):84-89. 被引量：6
4岳素芳.由递推关系式确定数列的阶[J].安庆师范大学学报（自然科学版）,2018,24(1):103-105.
5赵日,刘立业,李君利.基于递推关系式的γ能谱全能峰基底扣减方法[J].原子能科学技术,2018,52(6):1085-1091. 被引量：2
6王绍雷,杨鹤标.基于近似字符串匹配的姿势识别算法[J].软件导刊,2018,17(9):101-105. 被引量：1
7邵雪峰,王文艳,顾兆军.基于航站楼门禁日志的员工异常行为分析[J].民航学报,2018,2(2):5-9.
8银倍侨,黄蜚颖,刘人源,李永华,银胜高.广西不同产地桑寄生药材红外光谱学研究[J].亚太传统医药,2018,14(6):38-41. 被引量：2
9程宏兵,王珂,李兵,钱漫匀.一种高效的社交网络朋友推荐方案[J].计算机科学,2018,45(B06):433-436. 被引量：4
10肖晓丽,周锡玲.基于用户相似度和信任度的药品推荐算法[J].计算机工程与应用,2018,54(8):214-219. 被引量：2

华东师范大学学报（自然科学版）

2018年第5期

浏览历史

内容加载中请稍等...

Levenshtein算法优化及在题库判重中的应用被引量：1

参考文献6

二级参考文献54

共引文献142

同被引文献6

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

Levenshtein算法优化及在题库判重中的应用 被引量：1

参考文献6

二级参考文献54

共引文献142

同被引文献6

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

Levenshtein算法优化及在题库判重中的应用被引量：1