一种半监督的汉语词义消歧方法被引量：7

Semi-Supervised Method for Chinese Word Sense Disambiguation

下载PDF

导出

摘要为了解决自然语言处理领域中的一词多义问题,本文提出了一种利用多种语言学知识和词义消歧模型的半监督消歧方法.首先,以歧义词汇左、右邻接词单元的词形、词性和译文作为消歧特征,来构建贝叶斯(Bayes)词义分类器,并以歧义词汇左、右邻接词单元的词形和词性作为消歧特征,来构建最大熵(maximum entropy,ME)词义分类器;其次,采用Co-Training算法并结合大量无标注语料来优化词义消歧模型;再次,进行了优化实验,在实验中,使用SemEval-2007:Task#5的训练语料和哈尔滨工业大学的无标注语料来优化贝叶斯分类器和最大熵分类器;最后,对优化后的词义消歧模型进行测试.测试结果表明:与基于支持向量机(support vector machine,SVM)的词义消歧方法相比,本文所提出方法的消歧准确率提高了0.9%.词义消歧的性能有所提高. To solve the problem of a word having multiple meanings in the natural language processing(NLP)field,a semi-supervised disambiguation method,that uses a range of word sense disambiguation(WSD)models and linguistic knowledge has been proposed in this paper.First,words,parts of speech and translations were used as discriminative features,which were extracted from word units adjacent to the left and right of an ambiguous word.A word sense classifier was constructed using a Bayes model,following which a word sense classifier based on a maximum entropy(ME)model was constructed.Second,a Co-Training algorithm,based on a multitude of unannotated corpora,was adopted to optimize the WSD model.Third,optimization experiments were conducted in which training corpus in SemEval-2007:Task#5 and a large number of unannotated corpora from Harbin Institute of Technology were applied to optimize the Bayesian classifier and the maximum entropy classifier.Finally,the optimized WSD model was tested.Test results demonstrate an increase in the disambiguation accuracy of the proposed method by 0.9%compared to WSD models based on support vector machines,thereby exhibiting an improvement in WSD performance.

作者张春祥徐志峰高雪瑶 ZHANG Chunxiang;XU Zhifeng;GAO Xueyao(School of Software and Microelectronics,Harbin University of Science and Technology,Harbin 150080,China;School of Computer Science and Technology,Harbin University of Science and Technology,Harbin 150080,China)

机构地区哈尔滨理工大学软件与微电子学院哈尔滨理工大学计算机科学与技术学院

出处《西南交通大学学报》 EI CSCD 北大核心 2019年第2期408-414,共7页 Journal of Southwest Jiaotong University

基金国家自然科学基金资助项目(61502124 60903082) 中国博士后科学基金资助项目(2014M560249) 黑龙江省自然科学基金资助项目(F201420 F2015041)

关键词自然语言处理词义消歧最大熵贝叶斯分类器 natural language processing word sense disambiguation maximum entropy Bayesian classifier

分类号 TP391.2 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1王李冬,张引,吕明琪.基于词组主题建模的文本语义压缩算法[J].西南交通大学学报,2015,50(4):755-763. 被引量：4
2翟东海,崔静静,聂洪玉,杜佳.基于语义相似度的话题关联检测方法[J].西南交通大学学报,2015,50(3):517-522. 被引量：6
3杨陟卓,黄河燕.基于语言模型的有监督词义消歧模型优化研究[J].中文信息学报,2014,28(1):19-25. 被引量：8
4郭瑛媚,史晓东,陈毅东,高燕.基于话题分布相似度的无监督评论词消歧方法[J].北京大学学报（自然科学版）,2013,49(1):95-101. 被引量：2
5李旭,刘国华,张东明.一种改进的汉语全文无指导词义消歧方法[J].自动化学报,2010,36(1):184-187. 被引量：6
6鹿文鹏,黄河燕,吴昊.基于领域知识的图模型词义消歧方法[J].自动化学报,2014,40(12):2836-2850. 被引量：10

二级参考文献93

1陈文亮,朱靖波,朱慕华,姚天顺.基于领域词典的文本特征表示[J].计算机研究与发展,2005,42(12):2155-2160. 被引量：21
2卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：27
3卢志茂,刘挺,李生.基于无指导机器学习的全文词义自动标注方法[J].自动化学报,2006,32(2):228-236. 被引量：2
4YANG Che-Yu.Word sense disambiguation using semantic relatedness measurement[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2006,7(10):1609-1625. 被引量：7
5Ide N, Veronis J. Word sense disambiguation: the state of the art. Computational Linguistics, 1998, 24(1): 1-41.
6Lin S D, Kaxin V. A semantics-enhanced language model for unsupervised word sense disambiguation. In: Proceedings of the 9th International Conference on Computational Linguistics and Intelligent Text Processing. Haifa, Israel: Springer, 2008. 287-298.
7McCarthy D, Koeling R, Weeds J, Carroll J. Unsupervised acquisition of predominant word senses. Computational Linguistics, 2007, 33(4): 553-590.
8Pedersen T, Bruce R. Distinguishing word senses in untagged text. In: Proceedings of the 2nd Conference on Empirical Methods in Natural Language Processing. New York, USA: 1997. 197-207.
9盛骤.概率论与数理统计.上海:上海交通人学出版社,1999.83-84.
10Klein D. Unsupervised learning for natural language processing. In: Proceedings of the 21st Annual Conference on Learning Theory. Helsinki, Finland: Springer, 2008. 5-6.

共引文献25

1常娥,张长秀,侯汉清,惠富平.基于向量空间模型的古汉语词义自动消歧研究[J].图书情报工作,2013,57(2):114-118. 被引量：6
2张春祥,栾博,高雪瑶,卢志茂.基于句法分析的汉语词义消歧[J].计算机应用研究,2014,31(1):40-42. 被引量：3
3张春祥,栾博,高雪瑶,卢志茂.句法信息指导的汉语词义消歧[J].计算机工程与应用,2015,51(5):142-145.
4陈浩.基于统计语言模型的无导词义消歧[J].电脑知识与技术,2015,0(1):178-180. 被引量：1
5吴树芳,徐建民,朱杰.基于互信息的话题特征选择方法研究[J].情报杂志,2015,34(4):160-164. 被引量：4
6王俊华,左祥麟,左万利.基于证据理论的单词语义相似度度量[J].自动化学报,2015,41(6):1173-1186. 被引量：4
7张春祥,邓龙,高雪瑶,卢志茂.结合语义知识的汉语词义消歧[J].计算机工程与应用,2016,52(3):119-122. 被引量：2
8张振景,李新福,田学东,王凯.基于SVM的离合词词义消歧[J].计算机科学,2016,43(2):239-244. 被引量：4
9赵冬晓,王效岳,白如江,刘自强.面向情报研究的文本语义挖掘方法述评[J].现代图书情报技术,2016(10):13-24. 被引量：7
10尹帮旭,陈帆,魏巍,王宏霞.基于重要块二值特征的电子凭证自恢复水印算法[J].西南交通大学学报,2017,52(1):156-163. 被引量：1

同被引文献60

1王永生.基于改进的Lesk算法的词义排歧算法[J].微型机与应用,2013,32(24):69-71. 被引量：4
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
3谢芳,胡泉.基于BP神经网络的词义消歧模型[J].计算机工程与应用,2006,42(12):187-189. 被引量：3
4施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
5王瑞琴,孔繁胜.无监督词义消歧研究[J].软件学报,2009,20(8):2138-2152. 被引量：17
6何径舟,王厚峰.基于特征选择和最大熵模型的汉语词义消歧[J].软件学报,2010,21(6):1287-1295. 被引量：37
7刘阳,宋余庆.搜索引擎学术研究知识图谱[J].图书情报知识,2010,27(6):105-110. 被引量：10
8张仰森,郭江.四种统计词义消歧模型的分析与比较[J].北京信息科技大学学报（自然科学版）,2011,26(2):13-18. 被引量：7
9黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：215
10张春祥,栾博,高雪瑶,卢志茂.基于句法分析的汉语词义消歧[J].计算机应用研究,2014,31(1):40-42. 被引量：3

引证文献7

1李国佳,赵莹地,郭鸿奇.一种基于多义词向量表示的词义消歧方法[J].智能计算机与应用,2018,8(4):52-56. 被引量：4
2王子牛,陈娅先,高建瓴,吴建华,王许.基于神经网络的词义消歧[J].软件,2019,40(2):11-15. 被引量：1
3唐善成,马付玉,张镤月,陈熊熊.采用Seq2Seq模型的非受限词义消歧方法[J].西北大学学报（自然科学版）,2019,49(3):351-355. 被引量：5
4张延星,王广祥,朱志芸,张蝶依.基于知识图谱词义消歧的文本聚类方法[J].华北理工大学学报（自然科学版）,2019,41(4):89-94. 被引量：1
5贺佳,杜建强,聂斌,熊旺平,雷银香,罗计根,曾青霞.基于多节点组合特征和模糊聚类的中文词义消歧方法[J].计算机应用与软件,2021,38(2):152-157.
6刘文松,胡竹青,张锦辉,刘雪菁,林峰,俞俊,徐一丹.电力科技图谱柔性构建方法[J].电力信息与通信技术,2022,20(3):12-19. 被引量：1
7卫欣玲.基于知识库的自然语言中歧义字段自动识别系统设计[J].自动化技术与应用,2023,42(1):69-72.

二级引证文献12

1李昊泉,史梦凡,陈舒楠,张君阳.卷积神经网络在案件分类上的应用[J].软件,2019,40(4):222-225. 被引量：1
2张延星,王广祥,朱志芸,张蝶依.基于知识图谱词义消歧的文本聚类方法[J].华北理工大学学报（自然科学版）,2019,41(4):89-94. 被引量：1
3戴洪涛,侯开虎,周洲,肖灵云.基于VCK-vector模型的词义消歧方法[J].软件,2020,41(2):134-140. 被引量：1
4申静波,李井辉,孙丽娜.注意力机制在评论文本情感分析中的应用研究[J].计算机技术与发展,2020,30(7):169-173. 被引量：5
5王伟,黄德根.基于滑动语义串匹配(SMOSS)的汉语词义消歧[J].小型微型计算机系统,2020,41(7):1345-1350. 被引量：2
6肖娟,李春玲.基于事件背景驱动的行为完型分析——自然语言理解与人工智能的语篇视野[J].长江学术,2021(1):121-128.
7胡志刚,章成志.悄然兴起的全文计量分析[J].图书馆论坛,2021,41(3):1-11. 被引量：13
8唐善成,张雪,张镤月,王瀚博,陈明.融合中文字形和字义的字向量表示方法[J].科学技术与工程,2021,21(32):13787-13792. 被引量：6
9张春祥,周雪松,高雪瑶,刘欢.融合k均值聚类与LSTM网络的半监督词义消歧[J].西安电子科技大学学报,2021,48(6):161-171. 被引量：5
10刘文松,胡竹青,张锦辉,刘雪菁,林峰,俞俊.基于文本特征增强的电力命名实体识别[J].电力系统自动化,2022,46(21):134-142. 被引量：3

1王子牛,陈娅先,高建瓴,吴建华,王许.基于神经网络的词义消歧[J].软件,2019,40(2):11-15. 被引量：1
2张小川,卢岩.茶文化翻译文本中的误译问题研究[J].福建茶叶,2018,40(1):308-309. 被引量：14
3李智恒,桂颖溢,杨志豪,林鸿飞,王健.基于生物医学文献的化学物质致病关系抽取[J].计算机研究与发展,2018,55(1):198-206. 被引量：5
4孙庆英,王中卿,朱巧明,周国栋.基于整数线性规划的商家属性抽取研究[J].中文信息学报,2017,31(6):190-195. 被引量：1
5崔露露.高中生物实验教学研究心得[J].明日,2019,0(16):0050-0050.
6程炜东,王洪亚,郭开彦.面向脏数据的贝叶斯统计建模研究[J].智能计算机与应用,2019,9(2):104-107. 被引量：1
7范午攸.一种针对已知作者的姓名消歧方法[J].图书馆杂志,2018,37(12):56-63. 被引量：5
8孟凡擎,鹿文鹏,张旭,成金勇.基于HowNet的图模型词义消歧方法[J].齐鲁工业大学学报,2018,32(6):66-73. 被引量：3
9侯毅霞,康秦.高职院校学前教育专业学生英语职业能力的分析和培养[J].高考,2018(36):263-264. 被引量：1
10江帆,杨洪耕.基于选择性贝叶斯分类的非侵入式负荷识别方法[J].电力建设,2019,40(2):94-99. 被引量：13

西南交通大学学报

2019年第2期

浏览历史

内容加载中请稍等...

一种半监督的汉语词义消歧方法被引量：7

参考文献6

二级参考文献93

共引文献25

同被引文献60

引证文献7

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

一种半监督的汉语词义消歧方法 被引量：7

参考文献6

二级参考文献93

共引文献25

同被引文献60

引证文献7

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

一种半监督的汉语词义消歧方法被引量：7