基于动态规划的汉语句子相似度算法被引量：8

Chinese Sentence Similarity Algorithm Based on Dynamic Programming

下载PDF

导出

摘要传统汉语句子相似度计算算法在处理大量专业词汇时准确率较低。为此,提出一种基于动态规划的汉语句子相似度算法。通过获取2个句子的公共子串集合,结合链表消重机制,从集合中获取2个句子的所有最长公共子串,并以此计算相似度。实验结果表明,对于含有大量专有名词的问题集合,该算法的测试正确率达93.6%,计算效率较高。 Traditional Chinese sentence computing algorithm has a lower accuracy in dealing with a large number of professional vocabulary.In order to solve this problem,this paper proposes a Chinese sentence similarity algorithm based on dynamic programming.By getting the common sub-string collection of two sentences,it combines the mechanism for duplicate elimination by linked list,and obtains all of the longest common sub-string of two sentences for computing similarity.Experimental results show that for the problem sets which contain a lot of proper nouns,the test accuracy of this algorithm is 93.6%,and has high computational efficiency.

作者冯凯王小华谌志群

机构地区杭州电子科技大学计算机应用技术研究所

出处《计算机工程》 CAS CSCD 2013年第2期220-224,共5页 Computer Engineering

基金国家自然科学基金资助项目(61103101) 教育部人文社会科学研究基金资助项目(12YJCZH201)

关键词句子相似度动态规划自动问答最长公共子串消重链表 sentence similarity dynamic programming automatic question-answer longest common substring duplicate elimination linked list

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献10

1吕学强,任飞亮,黄志丹,姚天顺.句子相似模型和最相似句子查找算法[J].东北大学学报（自然科学版）,2003,24(6):531-534. 被引量：68
2杨晓明,罗振声.模式匹配在中文问答系统中的应用研究[J].科学技术与工程,2006,6(3):319-322. 被引量：4
3朱礼军,陶兰,刘慧.领域本体中的概念相似度计算[J].华南理工大学学报（自然科学版）,2004,32(z1):147-150. 被引量：48
4秦兵,刘挺,王洋,郑实福,李生.基于常问问题集的中文问答系统研究[J].哈尔滨工业大学学报,2003,35(10):1179-1182. 被引量：96
5李霞,张太红,李莉.潜在语义索引在FAQ构建中的应用研究[J].石河子大学学报（自然科学版）,2005,23(6):778-781. 被引量：3
6顾榕,王小平,曹立明.一种基于潜在语义分析的查询扩展算法[J].计算机工程与应用,2004,40(18):23-25. 被引量：8
7裴婧,包宏.汉语句子相似度计算在FAQ中的应用[J].计算机工程,2009,35(17):46-48. 被引量：24
8陈红红,李辉,李新春.基于领域本体的概念格语义匹配[J].郑州大学学报（理学版）,2010,42(2):70-73. 被引量：7
9Richard B. Dynamic Programming[M].Princeton,new Jersey:princeton University Press,1957.
10车万翔;刘挺;秦兵.面向双语句对检索的汉语句子相似度计算[A]哈尔滨:[出版者不详],2004.

二级参考文献39

1王常亮,滕至阳.语句相似度计算在FAQ中的应用[J].计算机时代,2006(2):24-26. 被引量：10
2周文,刘宗田,陈慧琼.FCA与本体结合研究的综述[J].计算机科学,2006,33(2):8-12. 被引量：20
3朱靖波,王宝库,姚天顺.一种规则描述语言NPRDL语言[J].东北大学学报（自然科学版）,1996,17(6):651-655. 被引量：1
4Kobayashi M,Malassis L,Samukawa H.Retrieval and ranking of documents from a database[M].U S Patent,2000-06
5Andrea Rodriguez M,Max Egenhofer J.Determing Semantic Similarityamong Entity Classes from Different Ontologies[J].IEEE Transactions on Knowledge and Data Engineering,2003; (2):442～456
6Yuhua Li,Zuhair Bandar A,David McLean.An Approach for Measuring Semantic Similarity between Words Using Multiple Information Sources.Ontologies[J].IEEE Transactions on Knowledge and Data Engineering,2003;(4 ):871～881
7Lin D.An Information-Theoretic Definition of Similarity[C].In:Proc Int'l Conf Machine Learning(CIKM'98),1998
8Dermatas E,Kokkinakis G.Automatic stochastic tagging of natural language texts[J].Conputational Linguistics,1995,21(2):137-163.
9Deerwester S,Dumais S T,Harshman R,et al.Indexing by latent semantic analysis[J].Journal of the American Society for Information Science,1990,41 (6):391-407.
10[1]Studer R,Benjamins V R,Fensel D,et al. Knowledge engineering,principles and methods [J]. Data and Knowledge Engineering, 1998,25 (1-2): 161 - 197.

共引文献235

1宋颖毅,叶东升,王坤龙,葛志.无监督的问句相似度匹配方法[J].计算机应用研究,2020,37(S02):69-72. 被引量：2
2闫宏飞,陈翀.词汇与中心词的距离信息对问句相似度匹配的影响[J].清华大学学报（自然科学版）,2005,45(S1):1873-1877. 被引量：8
3柴晓丽,张丽伟,管玉玲.基于HowNet自动文摘的研究[J].电脑编程技巧与维护,2009(S1):164-165. 被引量：1
4车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：65
5王萌,何婷婷,张伟.基于概念向量空间模型的中文自动文摘系统[J].计算机工程与应用,2005,41(1):107-110. 被引量：5
6骆正华,樊孝忠,刘林,龚永罡.基于E-Chunk的问句实例分析系统[J].北京理工大学学报,2005,25(1):63-66. 被引量：2
7张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类[J].中文信息学报,2005,19(2):100-105. 被引量：47
8王萌,何婷婷,姬东鸿,王晓荣.基于HowNet概念获取的中文自动文摘系统[J].中文信息学报,2005,19(3):87-93. 被引量：22
9秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
10邓灵丽,覃聪.改进型答疑系统的设计与实现[J].现代制造工程,2005(11):130-132.

同被引文献94

1朱礼军,陶兰,刘慧.领域本体中的概念相似度计算[J].华南理工大学学报（自然科学版）,2004,32(z1):147-150. 被引量：48
2周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
3刘海涛.依存语法和机器翻译[J].语言文字应用,1997(3):91-95. 被引量：44
4刘胜久,李天瑞,贾真,尹红风.元搜索引擎排序方法建模与算法研究[J].计算机科学,2012,39(S3):197-199. 被引量：4
5车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：65
6王荣波,池哲儒.基于词类串的汉语句子结构相似度计算方法[J].中文信息学报,2005,19(1):21-29. 被引量：28
7金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80
8王树西.问答系统:核心技术、发展趋势[J].计算机工程与应用,2005,41(18):1-3. 被引量：28
9彭波,闫宏飞.搜索引擎检索系统质量评估[J].计算机研究与发展,2005,42(10):1706-1711. 被引量：10
10杨晓明,罗振声.模式匹配在中文问答系统中的应用研究[J].科学技术与工程,2006,6(3):319-322. 被引量：4

引证文献8

1杨平,刘在英.基于相对链码和改进LCS算法的图形匹配实现[J].计算机与现代化,2013(12):106-109. 被引量：1
2周建政,谌志群,李治,王荣波,冯凯.问答系统中问题模式分类与相似度计算方法[J].计算机工程与应用,2014,50(1):116-120. 被引量：4
3刘胜久,李天瑞,贾真,景运革.基于搜索引擎的相似度研究与应用[J].计算机科学,2014,41(4):211-214. 被引量：3
4汪卫明,梁东莺.基于语义依存关系匹配的汉语句子相似度计算[J].深圳信息职业技术学院学报,2014,12(1):56-61. 被引量：4
5熊晶,王继鹏,魏墨济.基于细粒度依存关系的中文长句相似度计算[J].科学技术与工程,2017,17(11):277-281. 被引量：4
6裴飞龙,闵华松.基于修正偏移量的句子相似度算法[J].计算机工程,2017,43(9):234-239.
7何颖刚,王宇.一种基于字向量和LSTM的句子相似度计算方法[J].长江大学学报（自然科学版）,2019,16(1):88-94. 被引量：4
8江燕,侯霞,杨鸿波.基于Siamese网络的句子相似度计算方法[J].北京信息科技大学学报（自然科学版）,2020,35(3):54-58. 被引量：2

二级引证文献22

1李红梅,丁晟春.基于本体和设计情景的产品设计领域知识问答系统研究[J].情报理论与实践,2015,38(1):130-134. 被引量：1
2陈二静,姜恩波.文本相似度计算方法研究综述[J].数据分析与知识发现,2017,1(6):1-11. 被引量：77
3赵胜辉,李吉月,徐碧,孙博研.基于TFIDF的社区问答系统问句相似度改进算法[J].北京理工大学学报,2017,37(9):982-985. 被引量：11
4郭显久,程罗德,张菁,张红.高校水产特色资源数据库建设与开发应用研究[J].农业图书情报学刊,2018,30(3):42-47.
5陈倩,唐旭清.基于核函数的搜索引擎研究[J].现代信息科技,2018,2(9):77-79.
6陆尹浩.一种基于Word2Vector与编辑距离的句子相似度计算方法[J].电脑知识与技术（过刊）,2017,23(2X):146-147. 被引量：4
7耿倩.面向校园咨询场景的自动问答系统设计[J].自动化技术与应用,2018,37(6):151-153. 被引量：4
8陈耀东,彭蝶飞,刘琴,王珂玲.基于语义角色向量的半监督情感分类方法[J].自动化技术与应用,2018,37(10):115-119.
9管棋,蔡荣杰,杨小燕,郭文明,严静东.智能问答系统在乳腺疾病影像领域的研究与应用[J].实用放射学杂志,2019,35(7):1159-1163. 被引量：1
10张婷,钱丽萍.基于长短期记忆网络的恶意URL的检测[J].北京建筑大学学报,2019,35(3):62-67. 被引量：2

1叶成绪,杨萍,刘少鹏.基于主题词的微博热点话题发现[J].计算机应用与软件,2016,33(2):46-50. 被引量：11
2刘维,陈崚.最长公共子序列的快速算法及其并行实现[J].计算机应用,2006,26(6):1422-1424. 被引量：6
3赵福生.求最长公共子串的两类解法比较[J].现代计算机,2011,17(20):30-31.
4王世昌.字符串匹配的自动机方法[J].计算机应用,1996,16(4):26-28. 被引量：1
5张游杰,马俊明,张清萍.基于文件比较的电子公文痕迹保留方法[J].计算机应用与软件,2016,33(3):118-120.
6归泳昆.3字符最长公共弱递增子串的O(nloglogn)算法[J].计算机科学,2008,35(3):264-266. 被引量：1
7唐静笑,吕学强,柳成洋,李涵.用户查询意图的层次化识别方法[J].现代图书情报技术,2014(1):36-42. 被引量：1
8杨思春,程节华,陈家骏,王启祥.一种基于模式的汉语句子相似度计算方法[J].微型机与应用,2001,20(8):52-53. 被引量：7
9王开云.两种基于双向比较的最长公共子串算法[J].中国工程物理研究院科技年报,2013(1):167-170. 被引量：2
10李健豪,章品正.相似单词查找方法研究与实现[J].微计算机信息,2012(9):417-418. 被引量：3

计算机工程

2013年第2期

浏览历史

内容加载中请稍等...

基于动态规划的汉语句子相似度算法被引量：8

参考文献10

二级参考文献39

共引文献235

同被引文献94

引证文献8

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于动态规划的汉语句子相似度算法 被引量：8

参考文献10

二级参考文献39

共引文献235

同被引文献94

引证文献8

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于动态规划的汉语句子相似度算法被引量：8