一种基于向量词序的句子相似度算法研究被引量：16

A Sentences Similarity Algorithm Based on Word Order of Vectors Distance

下载PDF

导出

摘要针对传统的句子相似度算法在句法结构等方面存在匹配率低的问题。为提高相似度计算的准确性,提出了一种改进的基于向量距离词序的句子相似度算法,从特征领域权重和词序方面进行改进,通过建立相应的领域特征集,对于相关领域的特征项给予更高的权重,同时,在向量空间模型的基础上,引入词序因子,计算句子词序相似度。使用包含6个领域的2651个句子作为语料库,实验结果表明,改进方法使特征领域内句子相似度计算的准确度得到提高。 Traditional sentence similarity algorithms cannot achieve high accuracy of similarity calculation due to their low matching rate in the syntactic structure. This paper proposes an improved sentence similarity algorithm based on the word order of vector distance to improve the accuracy of similarity calculation. It improves from the text feature -weight and Chinese word order calculation. With the establishment of corresponding domain feature set, the feature item in the domain will be given a higher weight. At the same time, on the basis of the vector space model, word order factor is introduced for the similarity calculation of Chinese word order. With the corpus containing six areas of 2651 sentences, the experimental result shows that the proposed algorithm can increase the accuracy of similarity cal- culation within the domain.

作者程志强闵华松

机构地区武汉科技大学信息科学与工程学院武汉科技大学冶金自动化与检测技术教育部工程研究中心

出处《计算机仿真》 CSCD 北大核心 2014年第7期419-424,共6页 Computer Simulation

基金国家自然科学基金(61175094)

关键词向量空间模型特征领域权重词序 Vector space model Text feature-weight Chinese word order

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
2张亮,冯冲,陈肇雄,黄河燕.基于语句相似度计算的FAQ自动回复系统设计与实现[J].小型微型计算机系统,2006,27(4):720-723. 被引量：19
3陶跃华.基于向量的相似度计算方案[J].云南师范大学学报（自然科学版）,2001,21(5):17-19. 被引量：29
4胡国全,陈家骏,戴新宇,尹存燕.一种基于实例的汉英机器翻译策略[J].计算机工程与设计,2005,26(4):900-903. 被引量：5
5秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30
6何绍荣,梁金明,何志勇.基于互信息和关系积理论的特征选择方法[J].计算机工程,2010,36(13):257-259. 被引量：11
7李彬,刘挺,秦兵,李生.基于语义依存的汉语句子相似度计算[J].计算机应用研究,2003,20(12):15-17. 被引量：127
8郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J].计算机应用研究,2008,25(11):3256-3258. 被引量：101
9晋耀红.基于语义的文本过滤系统的设计与实现[J].计算机工程与应用,2003,39(17):22-25. 被引量：18
10潘谦红,王炬,史忠植.基于属性论的文本相似度计算[J].计算机学报,1999,22(6):651-655. 被引量：63

二级参考文献90

1徐通锵.“字”和汉语语义句法的生成机制[J].语言文字应用,1999(1):24-34. 被引量：53
2董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：59
3陈群秀.一个在线义类词库:词网 WordNet[J].语言文字应用,1998(2):95-101. 被引量：31
4刘海涛.依存语法和机器翻译[J].语言文字应用,1997(3):91-95. 被引量：44
5车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：65
6张普.中文信息处理专题研究主持人的话[J].语言文字应用,2000(2):40-41. 被引量：5
7郭艳华,周昌乐.一种汉语语句依存关系网协动生成方法研究[J].杭州电子工业学院学报,2000,20(4):24-32. 被引量：11
8易丽萍,竹勇,雷小春.知网在词语相似度计算方面的应用[J].信息技术与信息化,2005(1):24-26. 被引量：11
9余刚,裴仰军,朱征宇,陈华月.基于词汇语义计算的文本相似度研究[J].计算机工程与设计,2006,27(2):241-244. 被引量：25
10章志凌,虞立群,陈奕秋,罗海飞,邵晓敏.基于Corpus库的词语相似度计算方法[J].计算机应用,2006,26(3):638-640. 被引量：17

共引文献458

1贾善崇,周兰江,张建安,周枫.融入多特征的汉-老双语对齐方法[J].中国水运（下半月）,2020,20(3):78-80. 被引量：2
2张嵩,杨晓明,田露.基于语义相似度计算的航天标准关联度评价[J].南京航空航天大学学报,2021,53(S01):153-156. 被引量：3
3吴婷,李明扬,孔芳.基于同义推理的篇章级实体上下位关系语料库构建[J].中文信息学报,2020(4):38-46. 被引量：1
4刘茂福,李淑君,金可佳,张晓龙.多文档自动文摘中的特征组合优化[J].计算机系统应用,2008,17(8):59-63. 被引量：3
5余正涛,邓锦辉,韩露,毛存礼,郑志蕴,郭剑毅.受限域FAQ中文问答系统研究[J].计算机研究与发展,2007,44(z2):388-393. 被引量：6
6杨俊,廖闻剑,彭艳兵.一种中文文本聚类算法的研究[J].硅谷,2009,2(5):68-69.
7李艳平,徐雅斌,陈俊伊.搜索服务中基于云计算的垃圾网页识别研究[J].华中科技大学学报（自然科学版）,2012,40(S1):249-253.
8彭京,杨冬青,唐世渭,王腾蛟,高军.基于概念相似度的文本相似计算[J].中国科学（F辑:信息科学）,2009,39(5):534-544. 被引量：17
9晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用,2004,40(16):36-39. 被引量：27
10陆勇,侯汉清.用于信息检索的同义词自动识别及其进展[J].南京农业大学学报（社会科学版）,2004,4(3):87-93. 被引量：25

同被引文献109

1刘亚军,徐易.一种基于加权语义相似度模型的自动问答系统[J].东南大学学报（自然科学版）,2004,34(5):609-612. 被引量：36
2王荣波,池哲儒.基于词类串的汉语句子结构相似度计算方法[J].中文信息学报,2005,19(1):21-29. 被引量：28
3金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80
4姜亚莉,关泽群.用于Web文档聚类的基于相似度的软聚类算法[J].计算机工程,2006,32(2):59-61. 被引量：6
5宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：43
6李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
7刘群李素建.基于《知网》的词汇语义相似度计算.中文计算语言学,2002,7(2):59-76.
8常聪.期刊的同质化竞争与个性化突围[J].学术交流,2007(9):186-190. 被引量：16
9HU Jinzhu, XU Ting, SHU Jiangbo, et al. A kind of calcula- tion method of Chinese sentence structure similarity[C]//In- ternational Conference on Advanced Computer Theory and En gineering(ICACTE). Chengdu: International Conference on IEEE,2010:344-347.
10百度.百度地图APIEEB/OL].[2015-06-10].http://develop-er.baidu.corn/map/.

引证文献16

1黄洪,丰旭.涉及地名的句子相似度计算方法的改进[J].浙江工业大学学报,2015,43(6):624-629. 被引量：3
2周昊天,闵华松.改进的分拣作业机械臂基于范例推理-信念期望意图推理机制[J].计算机应用,2016,36(3):746-750.
3薛苏琴,牛永洁.基于向量空间模型的中文文本相似度的研究[J].电子设计工程,2016,24(10):28-31. 被引量：12
4黄菊.一种基于语义向量空间模型的作业查重算法[J].电子科学技术,2016,3(6):786-789. 被引量：2
5逯万辉.基于深度学习的学术期刊选题同质化测度方法研究[J].情报资料工作,2017,38(5):105-112. 被引量：16
6裴飞龙,闵华松.基于修正偏移量的句子相似度算法[J].计算机工程,2017,43(9):234-239.
7孙帅强,郜洪奎.融合多特征的汉泰双语新闻主题句相似度计算[J].软件,2017,38(9):18-22.
8冯高磊,高嵩峰.基于向量空间模型结合语义的文本相似度算法[J].现代电子技术,2018,41(11):157-161. 被引量：9
9刘继明,谭云丹,袁野.基于平滑逆频率和依存句法的句子相似度计算方法[J].科学技术与工程,2019,19(20):278-282. 被引量：2
10刘继明,于敏敏,袁野.基于句向量的文本相似度计算方法[J].科学技术与工程,2020,20(17):6950-6955. 被引量：10

二级引证文献70

1王晰巍,贾若男,王铎,郭宇.图书情报领域人工智能的研究热点及发展趋势研究[J].图书情报工作,2019,63(1):70-80. 被引量：38
2黄洪,陈德锐.基于语义依存的汉语句子相似度改进算法[J].浙江工业大学学报,2017,45(1):6-9. 被引量：11
3鲁晓波,王立中,闫凤.旋转移动图像颜色相似度特征提取方法仿真[J].计算机仿真,2017,34(2):304-308. 被引量：1
4张海腾,翟洁,冷春霞.电子作业相似性检测技术的研究与实现[J].电子设计工程,2017,25(19):43-45. 被引量：2
5黄洪,屠肖龙.基于角度—相似度转换模型的义原相似度计算[J].浙江工业大学学报,2017,45(6):597-603.
6李芳.高相似度英语词语自主选取系统设计[J].现代电子技术,2017,40(23):147-150. 被引量：2
7俞婷婷,徐彭娜,江育娥,林劼.基于改进的Jaccard系数文档相似度计算方法[J].计算机系统应用,2017,26(12):137-142. 被引量：31
8逯万辉,谭宗颖.学术成果主题新颖性测度方法研究——基于Doc2Vec和HMM算法[J].数据分析与知识发现,2018,2(3):22-29. 被引量：40
9时雨,古天龙,宾辰忠,孙彦鹏.基于知识图谱的旅游景点问答系统[J].桂林电子科技大学学报,2018,38(4):296-302. 被引量：5
10甘秋云.基于TF-IDF向量空间模型文本相似度算法的分析[J].池州学院学报,2018,32(3):41-43. 被引量：6

1苏小虎.基于改进VSM的句子相似度研究[J].计算机技术与发展,2009,19(8):113-116. 被引量：6
2董刊生,方金云.基于向量距离的词序相似度算法[J].中文信息学报,2009,23(3):45-50. 被引量：11
3李秋明,张卫山,张培颖.基于句子多种特征的相似度计算模型[J].软件导刊,2016,15(9):4-6. 被引量：2
4邓兆熙.主观题自动评卷准确程度的关键技术研究——基于单向贴近度与词序相似度相结合的视角[J].岭南师范学院学报,2016,37(6):93-96.
5王秀娟,郑康锋.基于文档空间向量距离的查询扩展[J].计算机工程,2009,35(18):54-56. 被引量：5
6王鹏,史辰方.一种基于赋权向量距离的检索技术[J].中国电子商情（通信市场）,2012(5):26-30. 被引量：1
7刘颖莹,刘培玉,王智昊,李情情,朱振方.一种基于密度峰值发现的文本聚类算法[J].山东大学学报（理学版）,2016,51(1):65-70. 被引量：10
8王丽月,叶东毅.面向游戏客服场景的自动问答系统研究与实现[J].计算机工程与应用,2016,52(17):152-159. 被引量：11
9方延风,陈健.基于词向量距离的相关词变迁研究——以《情报探索》杂志摘要为例[J].情报探索,2015(4):5-7. 被引量：3
10王洪波,荣岩,罗贺,王晓佳.基于流形学习的DNA序列数据挖掘方法研究[J].合肥工业大学学报（自然科学版）,2014,37(8):933-937. 被引量：2

计算机仿真

2014年第7期

浏览历史

内容加载中请稍等...

一种基于向量词序的句子相似度算法研究被引量：16

参考文献12

二级参考文献90

共引文献458

同被引文献109

引证文献16

二级引证文献70

相关作者

相关机构

相关主题

浏览历史

一种基于向量词序的句子相似度算法研究 被引量：16

参考文献12

二级参考文献90

共引文献458

同被引文献109

引证文献16

二级引证文献70

相关作者

相关机构

相关主题

浏览历史

一种基于向量词序的句子相似度算法研究被引量：16