基于朴素贝叶斯模型的单词语义相似度度量被引量：12

Word Semantic Similarity Measurement Based on Naïve Bayes Model

下载PDF

导出

摘要单词语义相似度度量是自然语言处理领域的经典和热点问题.通过结合朴素贝叶斯模型和知识库,提出一个新颖的度量单词语义相似度度量途径.首先借助通用本体WordNet获取属性变量,然后使用统计和分段线性插值生成条件概率分布列,继而通过贝叶斯推理实现信息融合获得后验概率,并在此基础上量化单词语义相似度.主要贡献是定义了单词对距离和深度,并将朴素贝叶斯模型用于单词语义相似度度量.在基准数据集R＆G（65）上,对比算法评判结果与人类评判结果的相关度,采用5折交叉验证对算法进行分析,样本Pearson相关度达到0.912,比当前最优方法高出0.4%,比经典算法高出7%~13%;Spearman相关度达到0.873,比经典算法高出10%~20%;且算法的运行效率和经典算法相当.实验结果显示将朴素贝叶斯模型和知识库相结合解决单词语义相似度问题是合理有效的. Measuring semantic similarity between words is a classical and hot problem in nature language processing,the achievement of which has great impact on many applications such as word sense disambiguation,machine translation,ontology mapping,computational linguistics,etc.A novel approach is proposed to measure words semantic similarity by combining Nave Bayes model with knowledge base.To start,extract attribute variables based on WordNet;then,generate conditional probability distribution by statistics and piecewise linear interpolation technique;after that,obtain posteriori through Bayesian inference;at last,quantify word semantic similarity.The main contributions are definition of distance and depth between word pairs with small amount of computation and high degree of distinguishing the characteristics from words＇sense,and word semantic similarity measurement based on nave Bayesian model.On benchmark data set RG（65）,the experiment is conducted through 5-fold cross validation.The sample Pearson correlation between test results and human judgments is 0.912,with 0.4%improvement over existing best practice,and7%~13%improvement over classical methods.Spearman correlation between test results and human judgments is 0.873,with 10% ~20% improvement over classical methods.And the computational complexity of the method is as efficient as the classical methods,which indicates that integrating Nave Bayes model with knowledge base to measure word semantic similarity is reasonable and effective.

作者王俊华左万利闫昭

机构地区吉林大学计算机科学与技术学院符号计算与知识工程教育部重点实验室(吉林大学) 长春工业大学计算机科学与工程学院

出处《计算机研究与发展》 EI CSCD 北大核心 2015年第7期1499-1509,共11页 Journal of Computer Research and Development

基金国家自然科学基金项目(60973040) 国家自然科学青年基金项目(60903098,61300148) 吉林省重点科技攻关项目(20130206051GX) 吉林省科技计划青年基金项目(20130522112JH)

关键词单词语义相似度语义相似度分段线性插值朴素贝叶斯模型 WORDNET word semantic similarity semantic similarity piecewise linear interpolation Naïve Bayes model WordNet

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献30

1李茹,王智强,李双红,梁吉业,Collin Baker.基于框架语义分析的汉语句子相似度计算[J].计算机研究与发展,2013,50(8):1728-1736. 被引量：47
2Leacock C, Chodorow M. Combining local context and WordNet similarity for word sense identification [G]// WordNet: An Electronic Lexical Database. Cambridge: MIT Press, 1998:265-283.
3Zhou M, Ding Y, Huang C. Improving translation selection with a new translation model trained by independent monolingual corpora [J]. Computational Linguistics and Chinese Language Processing, 2001, 6(1): 1-26.
4Hassan H, Hassan A, Emam O. Unsupervised information extraction approach using graph mutual reinforcement [C] // Proc of the 2006 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2006: 501- 508.
5Rada R, Mill H, Bicknell E, et al. Development and application of a metric on semantic nets [J]. IEEE Trans on Systems, Man, and Cybernetics, 1989, 19(1): 17-30.
6Resnik P. Using information content to evaluate semantic similarity in a taxonomy [C] //Proc of Int Joint Conf for Artificial Intelligence. San Francisco: Morgan Kaufmann, 1995:448-453.
7Wu Z, Palmer M. Verbs semantics and lexieal selection [C] //Proc of the 32nd Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 1994: 133-138.
8Agirre E, Rigau G. A proposal for word sense disambiguation using conceptual distance [C] //Proc of the 1st Int Conf on Recent Advances in Natural Language Processing. Cambridge: MIT Press, 1995:35-43.
9Jiang J, Conrath D. Semantic similarity based on corpus statistics and lexical taxonomy [C] //Proe of the 10th In: Conf on Research in Computational Linguistics. Stroudsburg, PA: ACL, 1997:1-15.
10Lin D. An information-theoretic definition of similarity [C]// Proc of the 15th Int Conf on Machine Learning. New York: ACM, 1998; 296-304.

二级参考文献23

1张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
2赵军,金千里,徐波.面向文本检索的语义计算[J].计算机学报,2005,28(12):2068-2078. 被引量：28
3杨思春.一种改进的句子相似度计算模型[J].电子科技大学学报,2006,35(6):956-959. 被引量：34
4郝晓燕,刘伟,李茹,刘开瑛.汉语框架语义知识库及软件描述体系[J].中文信息学报,2007,21(5):96-100. 被引量：51
5Lee M C. A novel sentence similarity measure for semantic-based expert systems [J]. Expert Systems with Applications, 2011, 38(5): 6392-6399.
6穗志方,俞士汶.基于骨架依存树的语句相似度模型[C]//中文信息处理国际会议录.北京:清华大学出版社,1998:458-465.
7Aliguliyev R M. A new sentence similarity measure and sentence based extractive technique for automatic text summarization [J]. Expert Systems with Applications, 2009,36(4): 7764-7772.
8车万翔,刘挺,秦兵,等.面向双语句对检索的汉语句子相似度[C]//全国第七届计算语言学联合学术会议录.北京:清华大学出版社,2003.
9董振东,董强.“知网”.1999[2011-08-20].http://www.keenage.com.
10Miller G A, Beckwith R, Fellbaum C D, et al. WordNet: An online lexical database [J]. Int Journal of Lexicography, 1990, 3(4): 235-244.

共引文献46

1熊李艳,陈建军,钟茂生.基于E-A-V结构的概念图匹配算法[J].计算机应用研究,2014,31(8):2290-2293. 被引量：5
2翟继友.一种混合型的句子语义相似度计算方法[J].科学技术与工程,2014,22(28):81-85. 被引量：4
3翟继友.基于深度置信网络的语义相关度计算模型[J].科学技术与工程,2014,22(32):58-62. 被引量：4
4李景玉,张仰森,陈若愚.面向用户查询意图的句子相似度分层计算[J].计算机科学,2015,42(1):227-231. 被引量：3
5秦春秀,祝婷,赵捧未,张毅.自然语言语义分析研究进展[J].图书情报工作,2014,58(22):130-137. 被引量：31
6李业刚,黄河燕,史树敏,冯冲,苏超.多策略机器翻译研究综述[J].中文信息学报,2015,29(2):1-9. 被引量：21
7冶忠林,贾真,杨燕,尹红风.基于语义扩展的句子相似度算法[J].山西大学学报（自然科学版）,2015,38(3):399-405. 被引量：5
8张兴,刘伍颖.基于平假名Token的快速日本语句法匹配[J].山西大学学报（自然科学版）,2015,38(4):567-572. 被引量：1
9王智强,李茹,梁吉业,张旭华,武娟,苏娜.基于汉语篇章框架语义分析的阅读理解问答研究[J].计算机学报,2016,39(4):795-807. 被引量：18
10谭文斌,张太华,何二宝.基于多特征融合的产品评论语句相似度计算[J].贵州师范大学学报（自然科学版）,2016,34(1):81-87.

同被引文献82

1罗建国.图书分类[J].图书馆,1980(2):27-33. 被引量：1
2许云,樊孝忠,张锋.基于知网的语义相关度计算[J].北京理工大学学报,2005,25(5):411-414. 被引量：53
3韩立岩,周芳.基于D-S证据理论的知识融合及其应用[J].北京航空航天大学学报,2006,32(1):65-68. 被引量：41
4黄果,周竹荣.基于领域本体的概念语义相似度计算研究[J].计算机工程与设计,2007,28(10):2460-2463. 被引量：67
5李红梅,翟亮,朱熀.基于本体的地理空间实体类型语义相似度计算模型的研究[J].测绘科学,2009,34(2):12-14. 被引量：14
6Martin Malmsten,李雯静(译),黄田青,刘炜(校).将图书馆目录纳入语义万维网[J].现代图书情报技术,2009(3):3-7. 被引量：19
7Ed Summers,Antoine Isaac,Clay Redding,Dan Krech,姚小乐,刘炜(译),张春景(校).LCSH，SKOS和关联数据[J].现代图书情报技术,2009(3):8-14. 被引量：42
8徐永东,王亚东,刘杨,王伟,权光日.多文档文摘中基于时间信息的句子排序策略研究[J].中文信息学报,2009,23(4):27-33. 被引量：8
9徐济成,李绍稳,张友华.农业本体及本体学习研究[J].计算机技术与发展,2009,19(8):212-215. 被引量：5
10肖升,胡金柱,姚双云,吴锋文.面向对象有标复句本体建模[J].计算机应用研究,2010,27(2):552-554. 被引量：6

引证文献12

1索俊锋,刘勇.基于农业本体的语义相似度算法及其在农作物本体中的应用[J].农业工程学报,2016,32(16):175-182. 被引量：7
2陈蓉.基于组合赋权与贝叶斯模型的建设风险评价[J].经济研究导刊,2017(9):178-180.
3杨进才,陈忠忠,沈显君,胡金柱.基于汉语复句的语义相关度计算及类别的标识[J].计算机科学,2017,44(5):280-284. 被引量：1
4薛涛,王恒.基于条件熵和上下文邻近度的句子排序研究[J].计算机应用研究,2017,34(9):2680-2684. 被引量：2
5张立波,孙一涵,罗铁坚.一种基于大规模知识库的语义相似性计算方法[J].计算机研究与发展,2017,54(11):2576-2585. 被引量：14
6李芳.高相似度英语词语自主选取系统设计[J].现代电子技术,2017,40(23):147-150. 被引量：2
7周建,高晓东.基于特征权重的词条匹配系统研究与实现[J].南通大学学报（自然科学版）,2017,16(3):15-19.
8尹亮,袁飞,谢文波,王栋志,孙崇敬.关联图谱的研究进展及面临的挑战[J].计算机科学,2018,45(B06):1-10. 被引量：3
9周国福.数据挖掘技术在高校成绩分析中的应用[J].宁波职业技术学院学报,2017,21(6):90-93. 被引量：3
10童英华,田立勤,李靖.基于贝叶斯网络的雾霾重点污染源排放预测[J].计算机工程与设计,2018,39(9):2894-2901. 被引量：2

二级引证文献43

1张显炀,刘刚,马霄龙,陈健,李兆麟.基于变分自编码的海面舰船轨迹预测算法[J].计算机应用研究,2020,37(S01):122-125. 被引量：3
2陈霞,罗晨希,张立波,阚成章,罗铁坚.一种学习路径规划的模型及方法[J].科研信息化技术与应用,2017,8(6):3-12. 被引量：1
3崔婉秋,杜军平,寇菲菲,李志坚,Lee JangMyung.面向微博短文本的社交与概念化语义扩展搜索方法[J].计算机研究与发展,2018,55(8):1641-1652. 被引量：4
4朱敏.计算机辅助英语词汇查询系统设计[J].现代电子技术,2018,41(14):66-69. 被引量：2
5陈霞,罗晨希,张立波,罗铁坚.一种分析学科演化的模型及方法[J].工程研究（跨学科视野中的工程）,2018,10(2):168-179. 被引量：3
6李晓瑜.数据挖掘技术在高校课程设置中的应用[J].微型电脑应用,2019,35(5):5-7. 被引量：2
7李冠利.高职生NCRE成绩预测模型准确度比较与优化[J].智库时代,2019(17):124-125.
8余亚辉,高敏,夏新颜.高等教育事业统计数据挖掘与分析的思考[J].洛阳理工学院学报（社会科学版）,2019,34(3):93-96. 被引量：5
9杨林,张力,詹承华,高淑敏,宋斌.基于知识网络的智能学习路径优化[J].计算机工程与设计,2019,40(8):2378-2383. 被引量：1
10杨正祥,刘杰,袁克柔,周建设.作文段落句间逻辑合理性等级评测[J].计算机应用与软件,2019,36(9):175-180. 被引量：2

1梁晓雷.基于单片机的分段线性插值算法实现[J].电脑知识与技术,2012,0(7X):5236-5237. 被引量：4
2曾德惠.基于Matlab实现函数逼近[J].现代电子技术,2009,32(18):141-143. 被引量：11
3王莘,张红旗,汪永伟,侯兴超.一种改进的适于安全审计数据分析的关联算法[J].信息工程大学学报,2007,8(1):22-25. 被引量：1
4古.世界MPU、MCU和DSP三市场动态[J].电子产品世界,2008,15(10):36-36.
5商务人士专用——HP iPAQ 900系列[J].数码,2008(7):28-28.
6第三方公共平台“厂家购”上线首日30多家企业签约——首届中国互联网＋制造企业创新发展峰会暨“厂家购”模式研讨会在京隆重召开[J].中国太阳能产业资讯,2016,0(1):20-23.
7高忠生.浅谈用Excel解插值问题[J].安顺师范高等专科学校学报,2004,6(3):78-79.
8柏受军,王其昭,姚立立,魏宇丹.差动变压器的温度补偿方法研究[J].巢湖学院学报,2013,15(6):76-80. 被引量：2
9廖敬青,隆小光,毛宁,吴百海,龙建军.实时监测数据管理系统中压缩方法的研究[J].机床与液压,2005,33(12):116-117. 被引量：1
10王亚姣,马丰杰.基于PLC的线性插值模糊控制器的设计[J].电子设计工程,2011,19(8):86-88.

计算机研究与发展

2015年第7期

浏览历史

内容加载中请稍等...

基于朴素贝叶斯模型的单词语义相似度度量被引量：12

参考文献30

二级参考文献23

共引文献46

同被引文献82

引证文献12

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

基于朴素贝叶斯模型的单词语义相似度度量 被引量：12

参考文献30

二级参考文献23

共引文献46

同被引文献82

引证文献12

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

基于朴素贝叶斯模型的单词语义相似度度量被引量：12