用不同语义单元度量的句子相似度计算被引量：2

Sentence Similarity Computing with Different Semantic Unit Measure

下载PDF

导出

摘要提出了一种基于不同语义单元度量的句子相似度计算方法.将句子按词块分割为对应的公共词块和非公共词块,利用外部语义资源进行同义词替换和语义消歧处理.分别用词、词块和字为语义单元度量句子相似度,以不同的权重调节各语义单元对句子相似度的贡献.实验结果表明,该方法综合考虑的因素更加全面,有较高的准确率. A method of sentence similarity computing based on different semantic units was proposed .A sentence can be divided into corresponding public word blocks and non-public word blocks according to word blocks , and then synonym substitution and semantic disambiguation processing can be carried by using external semantic resource . Words, word blocks and characters were used as the semantic units to measure the sentence similarity and adjust the contribution of each semantic unit to the sentence similarity with different weights .The experimental results showed that this approach of overall evaluation factor was more comprehensive and higher accuracy can be achieved .

作者王东熊世桓

机构地区贵州师范学院数学与计算机科学学院

出处《信阳师范学院学报（自然科学版）》 CAS 北大核心 2014年第1期145-148,共4页 Journal of Xinyang Normal University(Natural Science Edition)

基金贵州省优秀科技教育人才省长专项资金项目(黔省专合字(2012)82)

关键词句子相似度词块公共词块同义词词林搭配词库 sentence similarity word block common word block tongyici Cilin collocation dictionary

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1胡国全,陈家骏,戴新宇,尹存燕.一种基于实例的汉英机器翻译策略[J].计算机工程与设计,2005,26(4):900-903. 被引量：5
2张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
3张亮,冯冲,陈肇雄,黄河燕.基于语句相似度计算的FAQ自动回复系统设计与实现[J].小型微型计算机系统,2006,27(4):720-723. 被引量：19
4吕学强,任飞亮,黄志丹,姚天顺.句子相似模型和最相似句子查找算法[J].东北大学学报（自然科学版）,2003,24(6):531-534. 被引量：68
5李素建.基于语义计算的语句相关度研究[J].计算机工程与应用,2002,38(7):75-76. 被引量：83
6李彬,刘挺,秦兵,李生.基于语义依存的汉语句子相似度计算[J].计算机应用研究,2003,20(12):15-17. 被引量：127
7穗志文.基于骨架依存树的语句相似度计算模型[J].计算语言学文集,1998,(3):176-184.
8车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：64
9王荣波,池哲儒.基于词类串的汉语句子结构相似度计算方法[J].中文信息学报,2005,19(1):21-29. 被引量：28
10程传鹏,吴志刚.一种基于知网的句子相似度计算方法[J].计算机工程与科学,2012,34(2):172-175. 被引量：27

二级参考文献71

1刘海涛.依存语法和机器翻译[J].语言文字应用,1997(3):91-95. 被引量：43
2郭艳华,周昌乐.一种汉语语句依存关系网协动生成方法研究[J].杭州电子工业学院学报,2000,20(4):24-32. 被引量：11
3王荣波,池哲儒,常宝宝,柏晓静.基于词串粒度及权值的汉语句子相似度衡量[J].计算机工程,2005,31(13):142-144. 被引量：13
4余刚,裴仰军,朱征宇,陈华月.基于词汇语义计算的文本相似度研究[J].计算机工程与设计,2006,27(2):241-244. 被引量：25
5朱靖波,王宝库,姚天顺.一种规则描述语言NPRDL语言[J].东北大学学报（自然科学版）,1996,17(6):651-655. 被引量：1
6程涛,施水才,王霞,吕学强.基于同义词词林的中文文本主题词提取[J].广西师范大学学报（自然科学版）,2007,25(2):145-148. 被引量：11
7穗志文.基于骨架依存树的语句相似度计算模型[J].计算语言学文集,1998,(3):176-184.
8车万翔等.面向依存文法分析的搭配抽取方法研究[A]..全国第六届计算语言学联合学术会议[C].,2001..
9穗志方俞士汶.基于骨架依存树的语句相似度计算模型[A]..中文信息处理国际会议(ICCIP''98)[C].,1998..
10关毅,王晓龙.基于统计的汉语词汇间语义相似度计算[C]//全国第七届计算语言学联合学术会议论文集,哈尔滨,2003:221-227.

共引文献487

1贾善崇,周兰江,张建安,周枫.融入多特征的汉-老双语对齐方法[J].中国水运（下半月）,2020,20(3):78-80. 被引量：2
2龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
3熊回香,陈子薇,叶佳鑫.基于共现关系的关键词层次结构构建研究[J].知识管理论坛,2022(4):443-451. 被引量：1
4张嵩,杨晓明,田露.基于语义相似度计算的航天标准关联度评价[J].南京航空航天大学学报,2021,53(S01):153-156. 被引量：3
5马林兵,张宇菲,谭婷,杨宗和.基于本体论空间搜索引擎研究——以地震灾害为例[J].计算机应用研究,2020,37(S02):202-204. 被引量：1
6刘茂福,李淑君,金可佳,张晓龙.多文档自动文摘中的特征组合优化[J].计算机系统应用,2008,17(8):59-63. 被引量：3
7王常亮,闫利华,吴曦德.基于XML的智能答疑系统研究[J].赤峰学院学报（自然科学版）,2008,24(9):86-89.
8周粉,夏幼明.一种改进的基于知网的语义相似度计算方法[J].云南大学学报（自然科学版）,2008,30(S2):215-218. 被引量：1
9余正涛,邓锦辉,韩露,毛存礼,郑志蕴,郭剑毅.受限域FAQ中文问答系统研究[J].计算机研究与发展,2007,44(z2):388-393. 被引量：6
10柴晓丽,张丽伟,管玉玲.基于HowNet自动文摘的研究[J].电脑编程技巧与维护,2009(S1):164-165. 被引量：1

同被引文献14

1骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
2王惠,詹卫东,俞士汶.“现代汉语语义词典”的结构及应用[J].语言文字应用,2006(1):134-141. 被引量：24
3刘群,李素建.基于《知网》的词汇语义相似度计算[J].计算机语言学及中文信息处理,2007,31(7):59-76.
4Rafeeque PC,Sendhilkumar S.A survey on short text analysis in web[C]//Third International Conference on Advanced Computing,2011:365-371.
5LIU Gongshen,MENG Kui,XIE Jing.An improved topic detection method for Chinese Micro-blog based on incremental clustering[J].Journal of Software,2013,8(9):2313-2320.
6吴全娥,熊海灵.一种综合多特征的句子相似度计算方法[J].计算机系统应用,2010,19(11):110-114. 被引量：9
7田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报（信息科学版）,2010,28(6):602-608. 被引量：178
8蒋盛益,麦智凯,庞观松,吴美玲,王连喜.微博信息挖掘技术研究综述[J].图书情报工作,2012,56(17):136-142. 被引量：28
9周刚,邹鸿程,熊小兵,黄永忠.MB-SinglePass:基于组合相似度的微博话题检测[J].计算机科学,2012,39(10):198-202. 被引量：24
10杨武,李阳,卢玲.基于用户角色定位的微博热点话题检测方法[J].计算机应用,2013,33(11):3076-3079. 被引量：9

引证文献2

1黄贤英,陈红阳,刘英涛.短文本相似度研究及其在微博话题检测中的应用[J].计算机工程与设计,2015,36(11):3128-3133. 被引量：11
2贾玉祥,赵倩倩,李育光,郑一,昝红英.基于词语相似度的语义选择限制知识获取[J].郑州大学学报（理学版）,2019,51(3):67-72.

二级引证文献11

1余容,李光强,尹健.微博文本挖掘研究综述[J].情报探索,2017(5):97-103. 被引量：5
2孙志远,王伟,马迪,毛伟.移动营销领域的文本相似度计算方法[J].计算机应用,2017,37(A01):292-294. 被引量：6
3陈红阳,汪林林,陈滢生,鲁江坤,左雪.特征词选择与相似度融合的微博话题发现方法[J].电信科学,2017,33(10):134-140.
4李梦洁,邵曦.基于文本属性的微博用户相似度研究[J].计算机技术与发展,2018,28(5):17-22. 被引量：1
5梁晓贺,田儒雅,吴蕾,张学福.基于超网络的微博相似度及其在微博舆情主题发现中的应用[J].图书情报工作,2020,64(11):77-86. 被引量：12
6王立平,赵晖.融合词向量与关键词提取的微博话题发现[J].现代计算机,2020,26(23):3-9. 被引量：2
7任东亮,林绍福,黄鸿发,付钰.基于知识图谱的抗疫意见领袖热点话题检测与分析[J].软件导刊,2020,19(10):20-24. 被引量：7
8刘昕,席永轲,何杰,钱茛南,顾丽红.基于多层次聚类的文本知识挖掘[J].计算机工程与设计,2021,42(1):106-112. 被引量：5
9李世昌,黄玮,林莹莹,蔡铭.基于短文本匹配的ATS典型场景用户需求分析方法[J].交通运输工程与信息学报,2023,21(1):178-189. 被引量：2
10张仰森,段宇翔,黄改娟,蒋玉茹.社交媒体话题检测与追踪技术研究综述[J].中文信息学报,2019,0(7):1-10. 被引量：18

1王晶,吕良庆.基于单元度量的项目估计方法[J].计算机工程与设计,2012,33(4):1424-1430. 被引量：2
2杜坤,刘怀亮,王帮金.基于语义相关度的中文文本聚类方法研究[J].情报理论与实践,2016,39(2):129-133. 被引量：9
3高璐,赵小兵.一种实例库与义原关系相结合的概念消歧算法[J].首都师范大学学报（自然科学版）,2016,37(3):7-10. 被引量：1
4姚亮,洪宇,刘昊,刘乐,姚建民.基于翻译模型和语言模型相融合的双语句对选择方法[J].中文信息学报,2016,30(5):145-152. 被引量：2
5李冬晨,张献涛,樊扬,吴玺宏.融合词义消歧的汉语句法分析方法研究[J].北京大学学报（自然科学版）,2015,51(4):577-584. 被引量：2
6周洪,陈强.基于SC文法的英汉机译中消歧处理的研究[J].北京联合大学学报,1997,11(3):1-8.
7郝秀兰,陶晓鹏,徐和祥,胡运发.kNN文本分类器类偏斜问题的一种处理对策[J].计算机研究与发展,2009,46(1):52-61. 被引量：33
8王忠建,王悦.归纳学习与规则结合的分词方法的有效性考察[J].哈尔滨师范大学自然科学学报,2010,26(1):40-43.
9赵爱罡,王宏力,杨小冈,陆敬辉,姜伟,黄鹏杰.基于局部显著性与梯度L_0范数的红外图像保边平滑算法[J].电光与控制,2017,24(2):19-24. 被引量：1
10贾玉祥,黄德智,刘武,俞士汶.中文语音合成中的文本正则化研究[J].中文信息学报,2008,22(5):45-50. 被引量：12

信阳师范学院学报（自然科学版）

2014年第1期

浏览历史

内容加载中请稍等...

用不同语义单元度量的句子相似度计算被引量：2

参考文献11

二级参考文献71

共引文献487

同被引文献14

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

用不同语义单元度量的句子相似度计算 被引量：2

参考文献11

二级参考文献71

共引文献487

同被引文献14

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

用不同语义单元度量的句子相似度计算被引量：2