基于修正偏移量的句子相似度算法

Sentence Similarity Algorithm Based on Corrected Offset

下载PDF

导出

摘要在计算词语语义相似度的基础上,提出一种以句子中心词为基准衡量词语组合相对位置偏移量的句子相似度计算方法。根据词语词性和语法规则确定句子中心词并剔除全局性限定词,以句子中心词为基准对词语相对位置进行标定并计算词语组合的相对位置偏移量,综合句子长度差异性信息、浅层次结构信息和语义信息计算句子相似度。实验结果表明,与基于统计与基于偏移量的句子相似度算法相比,该算法具有较高的相似度计算准确率、召回率及综合指标F值。 On the basis of calculating the semantic similarity of words,a sentence similarity calculation method is proposed to measure the relative position offset of word combination according to the sentence center word. Firstly, central word of the sentence is determined by part of speech and grammatical rules, and the global qualifiers of the sentence are eliminated. Secondly,the relative position of words is marked according to the center word, and the relative position offset of the combination of two words is computed. At last,the sentence length difference information,shallow structure information and semantic information are integrated to calculate sentence similarity. The experimental results show that the algorithm can effectively improve the accury, recall rate, and F value of the comprehensive index compared with the sentence similarity algorithm based on statistics and the one based on offset.

作者裴飞龙闵华松

机构地区武汉科技大学冶金自动化与检测技术教育部工程研究中心

出处《计算机工程》 CAS CSCD 北大核心 2017年第9期234-239,共6页 Computer Engineering

基金国家自然科学基金(61175094 61673304)

关键词句子相似度中心词相对位置修正偏移量全局性限定词 sentence similarity center word relative position corrected offset global qualifier

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1黄九鸣,吴泉源,刘春阳,张旭,贾焰,周斌.短文本信息流的无监督会话抽取技术[J].软件学报,2012,23(4):735-747. 被引量：19
2李景玉,张仰森,陈若愚.面向用户查询意图的句子相似度分层计算[J].计算机科学,2015,42(1):227-231. 被引量：3
3李茹,王智强,李双红,梁吉业,Collin Baker.基于框架语义分析的汉语句子相似度计算[J].计算机研究与发展,2013,50(8):1728-1736. 被引量：47
4郑诚,李清,刘福君.改进的VSM算法及其在FAQ中的应用[J].计算机工程,2012,38(17):201-204. 被引量：9
5裴婧,包宏.汉语句子相似度计算在FAQ中的应用[J].计算机工程,2009,35(17):46-48. 被引量：24
6程传鹏,吴志刚.一种基于知网的句子相似度计算方法[J].计算机工程与科学,2012,34(2):172-175. 被引量：27
7赵臻,吴宁,宋盼盼.基于多特征融合的句子语义相似度计算[J].计算机工程,2012,38(1):171-173. 被引量：18
8冯凯,王小华,谌志群.基于动态规划的汉语句子相似度算法[J].计算机工程,2013,39(2):220-224. 被引量：8
9姜华,韩安琪,王美佳,王峥,吴雲玲.基于改进编辑距离的字符串相似度求解算法[J].计算机工程,2014,40(1):222-227. 被引量：72
10黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：221

二级参考文献132

1朱礼军,陶兰,刘慧.领域本体中的概念相似度计算[J].华南理工大学学报（自然科学版）,2004,32(z1):147-150. 被引量：48
2赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
3车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：64
4顾榕,王小平,曹立明.一种基于潜在语义分析的查询扩展算法[J].计算机工程与应用,2004,40(18):23-25. 被引量：8
5董振东,董强.知网和汉语研究[J].当代语言学,2001,3(1):33-44. 被引量：57
6周新栋,王挺.基于N元语言模型的文本分类方法[J].计算机应用,2005,25(1):11-13. 被引量：11
7王荣波,池哲儒.基于词类串的汉语句子结构相似度计算方法[J].中文信息学报,2005,19(1):21-29. 被引量：28
8张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
9胡国全,陈家骏,戴新宇,尹存燕.一种基于实例的汉英机器翻译策略[J].计算机工程与设计,2005,26(4):900-903. 被引量：5
10王荣波,池哲儒,常宝宝,柏晓静.基于词串粒度及权值的汉语句子相似度衡量[J].计算机工程,2005,31(13):142-144. 被引量：13

共引文献456

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：15
2杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
3赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
4宋颖毅,叶东升,王坤龙,葛志.无监督的问句相似度匹配方法[J].计算机应用研究,2020,37(S02):69-72. 被引量：2
5孙红,黎铨祺,赵娜.基于双层树状支持向量机的观点挖掘与倾向分析[J].智能计算机与应用,2021,11(3):44-47. 被引量：3
6王鹏,郑贵省,郭强,贾蓓.基于网络爬虫的民用运力数据获取[J].军事交通学院学报,2020,22(1):87-90. 被引量：1
7高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
8郭书杰,黄明,梁旭.陪护机器人口语对话系统设计与实现[J].网络安全技术与应用,2010(12):77-80. 被引量：1
9蓝雁玲,陈建超.基于词性及词性依存的句子结构相似度计算[J].计算机工程,2011,37(10):47-49. 被引量：6
10杨剀,黄玲玲,阳小华.基于网格的精品课程答疑资源跨校共建共享研究[J].南华大学学报（自然科学版）,2011,25(2):59-62. 被引量：4

1刘姣.现代信息技术在统计工作中的应用分析[J].人力资源管理,2017(9):337-337. 被引量：1
2邓涵,朱新华,李奇,彭琦.基于句法结构与修饰词的句子相似度计算[J].计算机工程,2017,43(9):240-244. 被引量：12
3刘梁剑.经典“阐发”和哲学话语创新:郭象《庄子注》的启发[J].船山学刊,2017(5):106-112. 被引量：2
4屠海军.文稿校对五法[J].秘书工作,2017,0(8):62-63.
5尹羊娇.汉语名词性短语的结构分析[J].小品文选刊（下）,2017,0(9):236-237.
6许鸿飞,于然,李雪梅,寇晓溪,赵子兰,金燊,杨清海.面向故障联合定位的告警数据信息填充算法[J].现代电子技术,2017,40(19):62-66. 被引量：2
7张绍阳,曹家波,王子凡,曲卫东.基于加权二部图匹配的中文段落相似度计算[J].计算机工程与应用,2017,53(18):95-101. 被引量：4
8高万同.核心素养是“言品”[J].七彩语文（教师论坛）,2017,0(9):8-9.
9朱强,熊泽,张荣,张俊良,俞建成,吴焕铭.基于Tversky特征相似度的谱库检索算法[J].真空科学与技术学报,2017,37(8):772-775.
10李维.护理干预对癫痫及癫痫性精神障碍患者的重要性[J].中国城乡企业卫生,2017,32(9):103-104. 被引量：2

计算机工程

2017年第9期

浏览历史

内容加载中请稍等...

基于修正偏移量的句子相似度算法

参考文献14

二级参考文献132

共引文献456

相关作者

相关机构

相关主题

浏览历史