一种基于义原信息量的词语相似度计算方法

An Word Similarity Computing Method Based on Information Content of Sememe

下载PDF

导出

摘要国内利用知网计算中文词语相似度通常采用基于义原距离和深度的方法,计算结果依赖于公式的设计和参数的选取。针对词语相似度的计算,文章提出采用知网义原信息量来计算中文词语相似度,根据信息论中计算两个事物相似度的思想,利用知网的分类体系来计算义原信息量,从词语概念的主类义原信息量、义原及其角色关系的信息量及义原结点相似度三个方面来综合计算词语的相似度,与刘群和知网在线的方法进行比较,实验结果显示本文方法与人的判断更为接近。 Chinese words similarity computation based on Hownet commonly used sememe distance and depth, the similarity measure is defined directly by a formula and rely on the selection of parameters. This paper presented a new method of Chinese words semantic similarity computation. The method is based on new HowNet with its lexical taxonomy to calculate the information content of HowNet sememe, and combines the idea of the similarity computing between two objects of information theory to compute word similarity from three dimensions： the information content of main sememe, the information content of sememe and Event Role, the semerne node similarity. The experimental results demonstrate that the method is reasonable and effective.

作者李国佳

机构地区华北水利水电大学软件学院

出处《电脑与信息技术》 2015年第3期21-24,63,共5页 Computer and Information Technology

关键词义原信息量概念相似度结点相似度词语相似度 information content of sememe concept similarity node similarity word similarity

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1Eneko Agirre, German Rigau. A Proposal for Word Sense Dis- ambiguation using Conceptual Distance [C]. Proceedings of the First International Conference on Recent Advanced in NLP, 1995:258-264.
2刘群,李素建.基于《知网》的词汇语义相似度的计算[C].第三届汉语词汇语义学研讨会,2002,7(2):59-76.
3李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
4董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：98
5江敏,肖诗斌,王弘蔚,施水才.一种改进的基于《知网》的词语语义相似度计算[J].中文信息学报,2008,22(5):84-89. 被引量：109
6Philip Resnik. Using Information Content to Evaluate Semantic Similarity in a Taxonomy [C].Proceedings of the Fourteenth In- ternational Joint Conference on Artificial Intelligence, 1995: 448-453.
7Dekang Lin. An Information-Theoretic Definition of Similarity [C].Proceedings of the Fifteenth International Conference on Machine Learning, 1998:296-304.
8Philip Resnik. Semantic Similarity in a Taxonomy: An Information-Based Measure and its Application to Problems of Ambiguity in natural Language[J].Joumal of Arti- ficial Intelligence Research, 1999:95-130.
9张亮,尹存燕,陈家骏.基于语义树的中文词语相似度计算与分析[J].中文信息学报,2010,24(6):23-30. 被引量：36
10刘青磊,顾小丰.基于《知网》的词语相似度算法研究[J].中文信息学报,2010,24(6):31-36. 被引量：34

二级参考文献40

1刘亚军,徐易.一种基于加权语义相似度模型的自动问答系统[J].东南大学学报（自然科学版）,2004,34(5):609-612. 被引量：35
2夏天,樊孝忠,刘林,骆正华.基于ALICE的汉语自然语言接口[J].北京理工大学学报,2004,24(10):885-889. 被引量：11
3王荣波,池哲儒.基于词类串的汉语句子结构相似度计算方法[J].中文信息学报,2005,19(1):21-29. 被引量：28
4张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
5吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
6朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
7李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
8董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：98
9李佳,祝铭,刘辰,杨正球.中文本体映射研究与实现[J].中文信息学报,2007,21(4):27-33. 被引量：10
10穗志文.基于骨架依存树的语句相似度计算模型[J].计算语言学文集,1998,(3):176-184.

共引文献318

1钱小飞.语言数据资源建设中的关键问题及对策[J].语料库语言学,2021,8(2):94-105. 被引量：1
2张嵩,杨晓明,田露.基于语义相似度计算的航天标准关联度评价[J].南京航空航天大学学报,2021,53(S01):153-156. 被引量：3
3张瑞霞,肖汉.基于知网的词图构造[J].华北水利水电学院学报,2008(3):53-56. 被引量：6
4吴雅娟,陈尧,尚福华.一种新的基于相似度计算的本体映射算法[J].计算机应用研究,2009,26(3):870-872. 被引量：11
5陈锐,张蕾,卢春俊,牟力科.基于概念图的信息检索的查询扩展模型[J].计算机应用,2009,29(2):545-548.
6左晓飞,刘怀亮,范云杰,赵辉.基于概念语义场的文本聚类算法研究[J].情报杂志,2012,31(5):180-184. 被引量：2
7张燕,宋锦斌.卡通动画数字媒体资源管理系统[J].长沙医学院学报,2010(2):54-56. 被引量：1
8曹立勇,郑诚.基于知网的语义相似度的改进算法[J].电子技术（上海）,2010(5):1-3. 被引量：2
9刘卫红.基于非功能语义的语义Web服务匹配方法研究[J].微型电脑应用,2008,24(7):20-22.
10江敏,肖诗斌,王弘蔚,施水才.一种改进的基于《知网》的词语语义相似度计算[J].中文信息学报,2008,22(5):84-89. 被引量：109

1李国佳.基于知网的中文词语相似度计算[J].智能计算机与应用,2015,5(3):49-52. 被引量：2
2于亚君,姜瑛.一种XML的树匹配改进方法[J].计算机工程与应用,2012,48(20):177-181. 被引量：4
3孙殿柱,孙永伟,李延瑞,宋洋.R＊-树结点自适应聚类分簇算法[J].北京航空航天大学学报,2013,39(3):344-348. 被引量：5
4李国佳,杨喜亮.基于知网义原信息量的词语相似度计算方法[J].软件导刊,2015,14(6):142-144. 被引量：4
5任巍英,高媛.基于属性扩展图的聚类算法研究[J].微电子学与计算机,2012,29(4):110-113. 被引量：1
6夏天.汉语词语语义相似度计算研究[J].计算机工程,2007,33(6):191-194. 被引量：63
7李永亮,黄曙光,鲍蕾.一种基于PageRank算法和知网的词义消歧方法[J].计算机应用与软件,2011,28(5):213-215. 被引量：4
8朱征宇,苑昆峰,陈杏环.一种基于最大权匹配计算的信息检索方法[J].计算机工程与应用,2007,43(33):176-180. 被引量：6
9李莼,罗振声,厉宇航.基于语义相关和概念相关的自动分类方法研究[J].计算机工程与应用,2003,39(12):106-109. 被引量：5
10《汉英机器翻译若干关键技术研究》由清华大学出版社出版[J].中文信息学报,2009,23(2):128-128.

电脑与信息技术

2015年第3期

浏览历史

内容加载中请稍等...

一种基于义原信息量的词语相似度计算方法

参考文献12

二级参考文献40

共引文献318

相关作者

相关机构

相关主题

浏览历史