融合路径与信息内容的词语语义相似度计算被引量：3

Word semantic similarity computation based on combining path and information content

下载PDF

导出

摘要词语语义相似度计算是自然语言处理领域研究的基础。针对基于路径方法中普遍存在的密度不均匀性问题,提出融合路径距离与信息内容方法,通过一个平滑参数将路径和信息内容融合调整概念间的语义距离,使路径方法计算的相似度值更加合理。该方法具有较少的参数,能够避免其他方法因引入参数过多带来的过拟合问题,具有较好的通用性。实验结果表明:本文方法计算的相似度值与国际标准测试集人工判定值的皮尔逊相关系数达到了0.852 3,具有较好的性能。同时对实验结果分析发现,结果受算法参数的影响甚小,表明本文提出的算法具有较强的鲁棒性。 The computation of word semantic similarity is the basis of natural language processing.Aiming at the problem of density inhomogeneity in path-based methods,a method of merging path distance and information content is proposed, which fuses the path and information content characteristics are fused through a smooth parameter to adjust the semantic distance between concepts and makes the similarity values calculated by path-based method more reasonable. The method has fewer parameters,thus avoids the problem of over-fitting caused by introducing too many parameters in other methods,and has a good universality. The experiments shows that the Pearson correlation coefficient between the similarity values from the presented method and the human judgments in the international standard test dataset has reached 0. 852 3,which means better performance. The analysis of experiment results shows that the results of the presented algorithm arevery little influenced by the parameters of the algorithm,which indicates that it has stronger robustness.

作者郭承湘唐忠石怀明 GUO Cheng-xiang;TANG Zhong;SHI Huai-ming(Guangxi Food and Drug Security Center for Information and Monitoring,Nanning 530029,China;School of Information Management,Guangxi Medical University,Nanning 530021,China)

机构地区广西壮族自治区食品药品安全信息与监控中心广西医科大学信息与管理学院

出处《广西大学学报（自然科学版）》 CAS 北大核心 2018年第3期1074-1081,共8页 Journal of Guangxi University（Natural Science Edition）

基金国家重点研发计划项目(2017YFC1602000)

关键词语义相似度语义距离信息内容不均匀性鲁棒性 semantic similarity semantic distance information content inhomogeneity robustness

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：59
2于江生,俞士汶.中文概念词典的结构[J].中文信息学报,2002,16(4):12-20. 被引量：67
3梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
4田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报（信息科学版）,2010,28(6):602-608. 被引量：178
5陈宏朝,李飞,朱新华,马润聪.基于路径与深度的同义词词林词语相似度计算[J].中文信息学报,2016,30(5):80-88. 被引量：29
6李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
7朱新华,郭小华,邓涵,马润聪.基于抽象概念的知网词语相似度计算[J].计算机工程与设计,2017,38(3):664-670. 被引量：5

二级参考文献37

1刘春辰,刘大有,王生生,赵静滨,王兆丹.改进的语义相似度计算模型及应用[J].吉林大学学报（工学版）,2009,39(1):119-123. 被引量：8
2鲁川,缑瑞隆,刘钦荣.交易类四价动词及汉语谓词配价的分类系统[J].汉语学习,2000(6):7-17. 被引量：24
3董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：59
4梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
5吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
6余刚,裴仰军,朱征宇,陈华月.基于词汇语义计算的文本相似度研究[J].计算机工程与设计,2006,27(2):241-244. 被引量：25
7李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
8程涛,施水才,王霞,吕学强.基于同义词词林的中文文本主题词提取[J].广西师范大学学报（自然科学版）,2007,25(2):145-148. 被引量：11
9关毅,王晓龙.基于统计的汉语词汇间语义相似度计算[C]//全国第七届计算语言学联合学术会议论文集,哈尔滨,2003:221-227.
10YU Sheng-quan,HE Ke-kang.The Research of Adaptive Learning System Based on Internet[C] ∥The Third Global Chinese Computer Application Conference Analects.Macao,China:Macao University Press,1999:34-40.

共引文献423

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
2熊回香,陈子薇,叶佳鑫.基于共现关系的关键词层次结构构建研究[J].知识管理论坛,2022(4):443-451. 被引量：1
3张嵩,杨晓明,田露.基于语义相似度计算的航天标准关联度评价[J].南京航空航天大学学报,2021,53(S01):153-156. 被引量：3
4卢雪晖,徐会丹,李斌,陈思瑜.先秦词网构建及梵汉对比研究[J].中文信息学报,2023,37(3):36-45. 被引量：1
5马林兵,张宇菲,谭婷,杨宗和.基于本体论空间搜索引擎研究——以地震灾害为例[J].计算机应用研究,2020,37(S02):202-204. 被引量：1
6吴雅娟,陈尧,尚福华.一种新的基于相似度计算的本体映射算法[J].计算机应用研究,2009,26(3):870-872. 被引量：11
7左晓飞,刘怀亮,范云杰,赵辉.基于概念语义场的文本聚类算法研究[J].情报杂志,2012,31(5):180-184. 被引量：2
8张燕,宋锦斌.卡通动画数字媒体资源管理系统[J].长沙医学院学报,2010(2):54-56. 被引量：1
9曹立勇,郑诚.基于知网的语义相似度的改进算法[J].电子技术（上海）,2010(5):1-3. 被引量：2
10伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7

同被引文献28

1王源,吴晓滨,涂从文,刘滨,章元峰,王金娥.后控规范的计算机处理[J].现代图书情报技术,1993(2):4-7. 被引量：30
2李霖,朱海红,王红,李德仁.基于形式本体的基础地理信息语义分析--以陆地水系要素类为例[J].测绘学报,2008,37(2):230-235. 被引量：45
3李红梅,翟亮,朱熀.基于本体的地理空间实体类型语义相似度计算模型的研究[J].测绘科学,2009,34(2):12-14. 被引量：14
4孔胜,王宇.基于句子相似度的文本主题句提取算法研究[J].情报学报,2011,30(6):605-609. 被引量：12
5李茹,王智强,李双红,梁吉业,Collin Baker.基于框架语义分析的汉语句子相似度计算[J].计算机研究与发展,2013,50(8):1728-1736. 被引量：47
6谭永滨,李霖,王伟,于忠海,张志军,毛凯,许赟.本体属性的基础地理信息概念语义相似性计算模型[J].测绘学报,2013,42(5):782-789. 被引量：24
7殷耀明,张东站.基于关系向量模型的句子相似度计算[J].计算机工程与应用,2014,50(2):198-203. 被引量：18
8张沪寅,刘道波,温春艳.基于《知网》的词语语义相似度改进算法研究[J].计算机工程,2015,41(2):151-156. 被引量：22
9牛继强,徐丰,李卓凡,洪晓峰.顾及地理实体语义相似度的土地用途分区模型[J].武汉大学学报（信息科学版）,2015,40(6):816-822. 被引量：15
10李国,张春杰,张志远.一种基于加权LDA模型的文本聚类方法[J].中国民航大学学报,2016,34(2):46-51. 被引量：10

引证文献3

1钮焱,李星,李军,刘宇强,Jepkemei Judith.基于DTW和改进匈牙利算法的句子语义相似度研究[J].计算机与数字工程,2021,49(2):242-247. 被引量：1
2关慧,马天宇,王广伟.相异性在语义相似度计算中的应用[J].沈阳化工大学学报,2022,36(2):167-179.
3谭永滨,高玲玲,李霖,程朋根,王红,李小龙,陈诚.地理要素类别语义相似度动态加权计算方法[J].测绘学报,2023,52(5):843-851. 被引量：1

二级引证文献2

1李凯鹏,王云葛,邵渊,吴星笑.面向水面轮船行为认知的海缆安全监控技术[J].电子设计工程,2022,30(22):52-56.
2张婉晨,郭黎,张毅,王彩璇,白翔天.动态本体的知识图谱构建技术[J].信息工程大学学报,2024,25(4):417-422.

1陈永斌.小学美术教学中微课资源的应用探究[J].美术教育研究,2018,0(12):129-129. 被引量：8
2强羽.高校羽毛球教学内容方法及其模式的探讨[J].体育风尚,2018,0(6):119-119.
3王珊珊.内容融合:新媒体时代下媒介融合的必经之路——以湖北日报集团为例[J].新闻研究导刊,2018,9(13):232-232.
4金磊.论公路工程项目的试验检测管理[J].经贸实践,2017(12X):202-202. 被引量：1
5田一涵.中职《日餐餐饮服务》实训课程设计与规划探究[J].佳木斯职业学院学报,2018,34(2):3-4. 被引量：1
6刘思容.浅析新形势下幼儿教师专业成长的新路径[J].新课程（综合版）,2018,0(5):230-230. 被引量：1
7李晓婷.“硬”对“坚”的替换分析[J].郑州师范教育,2018,7(2):53-56.
8刘亮.小学语文课堂教学中德育渗透的问题与对策研究[J].数码设计,2017,6(11):166-166. 被引量：4
9杨怀金.新课改下椭圆中的垂径定理分析[J].课程教育研究（学法教法研究）,2018,0(25):144-145.
10孙军辉.将“工匠精神”贯穿高技能人才培养全过程[J].新西部（下旬·理论）,2018(8):75-76. 被引量：2

广西大学学报（自然科学版）

2018年第3期

浏览历史

内容加载中请稍等...

融合路径与信息内容的词语语义相似度计算被引量：3

参考文献7

二级参考文献37

共引文献423

同被引文献28

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

融合路径与信息内容的词语语义相似度计算 被引量：3

参考文献7

二级参考文献37

共引文献423

同被引文献28

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

融合路径与信息内容的词语语义相似度计算被引量：3