基于证据理论的单词语义相似度度量被引量：4

Word Semantic Similarity Measurement Based on Evidence Theory

下载PDF

导出

摘要单词语义相似度度量一直是自然语言处理领域的经典和热点问题,其成果可对词义消歧、机器翻译、本体映射、计算语言学等应用具有重要影响.本文通过结合证据理论和知识库,提出一个新颖的度量单词语义相似度度量途径.首先,借助通用本体Word Net获取证据;其次,利用散点图分析证据的合理性;然后,使用统计和分段线性插值生成基本信任分配函数;最后,结合证据冲突处理、重要度分配和D-S合成规则实现信息融合获得全局基本信任分配函数,并在此基础上量化单词语义相似度.在数据集R&G(65)上,对比本文算法评判结果与人类评判结果的相关度,采用5折交叉验证对算法进行分析,相关度达到0.912,比当前最优方法 P&S高出0.4个百分点,比经典算法re LHS、dist JC、sim LC、sim L和sim R高出7%～13%;在数据集M&C(30)和Word Sim353上也取得了比较好的实验结果,相关度分别为0.915和0.941;且算法的运行效率和经典算法相当.实验结果显示使用证据理论解决单词语义相似度问题是合理有效的. Measuring semantic similarity between words is a classical and hot problem in nature language processing, the achievement of which has great impact on many applications such as word sense disambiguation, machine translation, ontology mapping, computational linguistics, etc. This paper proposes a novel approach to measure words semantic similarity by combining evidence theory with knowledge base. Firstly, we extract evidences based on WordNet;secondly, we analyze the reasonableness of the extracted evidence using scatter plot;thirdly, we generate basic probability assignment by statistics and piecewise linear interpolation technique; fourthly, we obtain global basic probability assignment by integrating evidence conflict resolution, importance distribution, and D-S combination rules; finally, we quantify word semantic similarity. On data set R＆amp;G（65）, we conducted experiment through 5-fold cross validation, and the correlation of our experimental results with human judgment was 0.912, with 0.4% improvements over existing best practice P＆amp;S, 7%～13% improvements over classical methods （reLHS、distJC、simLC、simL, simR）; the experimental results based on M＆amp;C（30） and WordSim353 were also good with correlations being 0.915 and 0.941. The operational e？ciency of our method is as good as classical methods0, showing that using evidence theory to measure word semantic similarity is reasonable and effective.

作者王俊华左祥麟左万利

机构地区吉林大学计算机科学与技术学院符号计算与知识工程教育部重点实验室(吉林大学) 长春工业大学计算机科学与工程学院

出处《自动化学报》 EI CSCD 北大核心 2015年第6期1173-1186,共14页 Acta Automatica Sinica

基金国家自然科学基金(60903098,60973040,61300148,61472049) 吉林省重点科技攻关项目(20130206051GX) 吉林省科技计划青年基金项目(20130522112JH)资助~~

关键词词计算统计学习证据理论不确定性度量 Computing with word statistical learning evidence theory uncertainty modeling

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献36

1Zhou M, Ding Y, Huang C N. Improving translation selec- tion with a new translation model trained by independent monolingual corpora. Computational Linguistics and Chi- nese Language Processing, 2001, 6(1): 1-26.
2Leacock C, Chodorow M. Combining LocM Context and WordNet Similarity t'or Word Sense Identification. Cam- bridge: MIT Press, 1998. 265-283.
3鹿文鹏,黄河燕,吴昊.基于领域知识的图模型词义消歧方法[J].自动化学报,2014,40(12):2836-2850. 被引量：10
4刘宇鹏,李生,赵铁军.基于WordNet词义消歧的系统融合[J].自动化学报,2010,36(11):1575-1580. 被引量：12
5Hassan H, Hassan A, Emam O. Unsupervised information extraction approach using graph mutual reinforcement. In: Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: As- sociation for Computational Linguistics, 2006. 501-508.
6李文清,孙新,张常有,冯烨.一种本体概念的语义相似度计算方法[J].自动化学报,2012,38(2):229-235. 被引量：44
7Cui Q, Gao B, Bian J, Qiu S, Liu T Y. KNET: A General Framework for Learning Word Embedding Using Morpho- logical Knowledge. arXiv: 1407.1687, 2014. 1-16.
8Rada R, Mili H, Bicknell E, Blettner M. Development and application of a metric on semantic nets. IEEE Transactions on Systems, Man, and Cybernetics, 1989, 19(1): 17-30.
9Resnik P. Using information content to evaluate semantic similarity in a taxonomy. In: Proceedings of the 14th In- ternational Joint Conference on Artificial Intelligence. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1995. 448-453.
10Wu Z B, Palmer M. Verbs semantics and lexical selection. In: Proceedings of the 32nd Annual Meeting on Associa- tion for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 1994. 133-138.

二级参考文献64

1林作铨,牟克典,韩庆.基于未知扰动的冲突证据合成方法[J].软件学报,2004,15(8):1150-1156. 被引量：27
2杨立,左春,王裕国.基于语义距离的K-最近邻分类方法[J].软件学报,2005,16(12):2054-2062. 被引量：31
3陈文亮,朱靖波,朱慕华,姚天顺.基于领域词典的文本特征表示[J].计算机研究与发展,2005,42(12):2155-2160. 被引量：21
4卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：27
5卢志茂,刘挺,李生.基于无指导机器学习的全文词义自动标注方法[J].自动化学报,2006,32(2):228-236. 被引量：2
6Haenni R. Comments on about the belief function combination and the conflict management problem[J]. Information Fusion, 2002, 3(4): 237-239.
7Murphy C K. Combining belief function when evidence conflicts[J]. Decision Support Systems, 2000, 29 (1) : 1-9.
8Yager R R. On the Dempster-Shafer framework and new combination rules[J]. Information Science, 1989. 41 (2) : 93-137.
9Pratap Misra, Per Enge. Global positioning system -- Singal, measurements and performance [M]. 2ed. Lincoln: Ganga-Jamuna Press, 2006.
10Lin D. An information-theoretic definition of similarity. In: Proceedings of the 15th International Conference on Machine Learning. Madison, USA: Morgan Kaufmann, 1998. 296-304.

共引文献67

1麦范金,李东普,岳晓光.基于双向匹配法和特征选择算法的中文分词技术研究[J].昆明理工大学学报（自然科学版）,2011,36(1):47-51. 被引量：8
2熊彦铭,杨战平.基于冲突性判定的证据组合新方法[J].弹箭与制导学报,2011,31(4):184-187.
3李文清,孙新,张常有,冯烨.一种本体概念的语义相似度计算方法[J].自动化学报,2012,38(2):229-235. 被引量：44
4周峰,缑锦,罗继亮.基于相似度动态修正的冲突证据组合方法[J].小型微型计算机系统,2012,33(3):646-650. 被引量：1
5胡泽文.基于WordNet和SUMO本体集成的自动语义检索及可视化模型[J].国家图书馆学刊,2012,21(2):23-32. 被引量：4
6佟为明,李方,李中伟,王铁成.基于焦元信度折扣和概率排序的信息融合决策方法[J].高技术通讯,2012,22(6):638-643.
7熊彦铭,杨战平.冲突证据组合中的模型修正新方法[J].火力与指挥控制,2012,37(8):35-38. 被引量：1
8王莉.基于关键词链的动态分面研究[J].现代图书情报技术,2012(7):76-81. 被引量：1
9张瑞杰,郭志刚,李弼程,高毫林.基于E^2LSH-MKL的视觉语义概念检测[J].自动化学报,2012,38(10):1671-1678. 被引量：3
10陈华城,杜学绘,陈性元,夏春涛.基于兴趣本体的文档敏感信息检测方法[J].计算机应用,2012,32(11):3030-3033. 被引量：2

同被引文献38

1张玲.基于Web数据库在线考试系统的设计研究探讨[J].自动化与仪器仪表,2016(5):120-121. 被引量：15
2黄元亮,李冰.不确定性推理中确定性的传播[J].计算机仿真,2008,25(7):133-136. 被引量：4
3张煜东,吴乐南,王水花.专家系统发展综述[J].计算机工程与应用,2010,46(19):43-47. 被引量：127
4邓鑫洋,邓勇,章雅娟,刘琪.一种信度马尔科夫模型及应用[J].自动化学报,2012,38(4):666-672. 被引量：38
5周哲,徐晓滨,文成林,吕锋.冲突证据融合的优化方法[J].自动化学报,2012,38(6):976-985. 被引量：28
6韩德强,杨艺,韩崇昭.DS证据理论研究进展及相关问题探讨[J].控制与决策,2014,29(1):1-11. 被引量：139
7李海波,柴天佑,赵大勇.混合选别浓密机底流矿浆浓度和流量区间智能切换控制方法[J].自动化学报,2014,40(9):1967-1975. 被引量：10
8张春晓,严爱军,王普.一种改进的案例推理分类方法研究[J].自动化学报,2014,40(9):2015-2021. 被引量：14
9李响,南江,杨雅婷,周喜,米成刚.泛化语言模型在汉维机器翻译中的应用[J].计算机应用研究,2014,31(10):2994-2997. 被引量：4
10陈海燕.基于搜索引擎的词汇语义相似度计算方法[J].计算机科学,2015,42(1):261-267. 被引量：21

引证文献4

1薛大为,王永,高康凯.基于规范分解的证据合成悖论分析[J].北京邮电大学学报,2019,42(1):28-34. 被引量：2
2袁杰,王福利,王姝,赵露平.基于D-S融合的混合专家知识系统故障诊断方法[J].自动化学报,2017,43(9):1580-1587. 被引量：35
3卢蓉.基于语义网络的英语机器翻译模型设计与改进[J].现代电子技术,2018,41(14):126-129. 被引量：4
4陈帅帅,付鹏斌,杨慧荣.基于语义相似度的主观题自动阅卷系统设计[J].自动化与仪器仪表,2018,0(9):59-62.

二级引证文献41

1张境麟,姚钰鹏,冯银辉,刘清.故障诊断预警系统在煤炭开采的应用[J].煤炭科学技术,2021,49(S01):175-182. 被引量：8
2刘娟,胡敏,黄忠.基于区域NSBP特征的加权证据融合表情识别[J].电子测量与仪器学报,2020(11):132-139. 被引量：2
3李晓庆,唐昊,司加胜,苗刚中.面向混合属性数据集的改进半监督FCM聚类方法[J].自动化学报,2018,44(12):2259-2268. 被引量：8
4李广建,陈瑜.知识融合研究的现状分析及建议[J].图书情报工作,2019,63(1):41-51. 被引量：3
5薛大为,王永,高康凯.基于规范分解的证据合成悖论分析[J].北京邮电大学学报,2019,42(1):28-34. 被引量：2
6姜伟伟,姜学鹏.基于退化失效阈值可能性分布的可靠性建模[J].海军航空工程学院学报,2018,33(2):243-247.
7王辉均,朱亦峰,董德浩,朱亮亮.防空战车电气一体化检测工艺的优化[J].机械制造,2019,57(3):71-75.
8翁钢民,潘越,李凌雁.“丝绸之路旅游带”景区区位优势等级测度与影响机理[J].经济地理,2019,39(4):207-215. 被引量：10
9陈晓红,马智勇,李喜华.证据视角下考虑多参考点的直觉模糊多属性决策模型[J].运筹与管理,2019,28(8):1-9. 被引量：2
10柴兴华,胡炎,雷耀麟,刘厦.无人机智能测控技术研究综述[J].无线电工程,2019,49(10):855-860. 被引量：5

1王文庆,杨远玲,杨春杰.一种基于证据理论的数据融合算法[J].控制与决策,2013,28(9):1427-1430. 被引量：9
2张佳薇,李明宝,郭润龙.基于D-S理论的故障诊断融合算法及应用研究[J].自动化仪表,2010,31(1):23-25. 被引量：11
3熊彦铭,杨战平.受证据理论启发的传感器数据融合算法[J].华中科技大学学报（自然科学版）,2011,39(10):50-54. 被引量：8
4王肖霞,杨风暴.一种处理冲突证据的合成方法[J].弹箭与制导学报,2007,27(5):255-257. 被引量：13
5王肖霞,杨风暴,蔺素珍,史冬梅.诱导有序的基本信任分配及其在坝体风险评估中的应用[J].应用基础与工程科学学报,2014,22(4):830-839. 被引量：1
6韦学谦.高效、简易的SPM＆C监控系统[J].汽车制造业,2009(8):28-30.
7古平,吴庭君,文静云.基于概念与词根双特征互助文本分类模型[J].计算机与现代化,2015(8):93-97.
8曹军,张佳薇,孙丽萍.两级数据融合算法在木材干燥过程中的应用[J].自动化技术与应用,2009,28(9):1-3.
9崔巍,王长松,巩宪锋.使用Nios II实现的CGI嵌入式网络人机交互接口[J].机械工程与自动化,2008(4):26-28.
10吴慧婷,姚春荣.一种P2P网络中声誉证据分发算法[J].武汉生物工程学院学报,2009,0(2):109-111.

自动化学报

2015年第6期

浏览历史

内容加载中请稍等...

基于证据理论的单词语义相似度度量被引量：4

参考文献36

二级参考文献64

共引文献67

同被引文献38

引证文献4

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

基于证据理论的单词语义相似度度量 被引量：4

参考文献36

二级参考文献64

共引文献67

同被引文献38

引证文献4

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

基于证据理论的单词语义相似度度量被引量：4