结合词形词性和译文的汉语词义消歧被引量：2

Chinese Word Sense Disambiguation Based on Word-translation and Part-of-speech

下载PDF

导出

摘要针对汉语中存在的词汇歧义问题,根据左右邻接词汇的词形、词性和译文信息,采用卷积神经网络(convolution neural network,CNN)来确定它的真实含义。选取歧义词汇的消歧词窗,共包含两个邻接词汇单元,抽取其词形、词性和译文作为消歧特征。以消歧特征为基础,结合卷积神经网络来构建词义消歧分类器。利用SemEval-2007:Task#5的训练语料和哈尔滨工业大学语义标注语料来优化CNN的参数。采用SemEval-2007:Task#5的测试语料对词义消歧分类器进行测试。实验结果表明:相对于贝叶斯(Bayes)模型和BP神经网络(BP neural network)而言,本文所提出方法的消歧平均准确率分别提高了14.94%和6.9%。 For vocabulary ambiguity problem in Chinese,CNN(Convolution Neural Network)is adopted to determine true meaning of ambiguous vocabulary where word,part-of-speech and translation around its left and right adjacent words are used.We select disambiguation window of ambiguous word which contains two adjacent lexical units and word,part-of-speech and translation are extracted as disambiguation features.Based on disambiguation features,convolution neural network is used to construct word sense disambiguation(WSD)classifier.Training corpus in SemEval-2007:Task#5 and semantic annotation corpus in Harbin Institute of Technology are used to optimize parameters of CNN.Test corpus in SemEval-2007:Task#5 is applied to test word sense disambiguation classifier.Experimental results show that compared with Bayes model and BP neural network,the proposed method in this paper can make average disambiguation accuracy improve 14.94%and 6.9%.

作者张春祥赵凌云高雪瑶 ZHANG Chun-xiang;ZHAO Ling-yun;GAO Xue-yao(School of Software and Microelectronics, Harbin University of Science and Technology, Harbin 150080, China;School of Computer Science and Technology, Harbin University of Science and Technology, Harbin 150080, China)

机构地区哈尔滨理工大学软件与微电子学院哈尔滨理工大学计算机科学与技术学院

出处《哈尔滨理工大学学报》 CAS 北大核心 2020年第3期131-136,共6页 Journal of Harbin University of Science and Technology

基金国家自然科学基金(61502124,60903082) 中国博士后科学基金(2014M560249) 黑龙江省自然科学基金(F2015041,F201420) 黑龙江省普通高校基本科研业务费专项资金(LGYC2018JC014)。

关键词词汇歧义卷积神经网络词汇单元消歧特征词义消歧 vocabulary ambiguity convolution neural network lexical unit disambiguation feature word sense disambiguation

分类号 TP391.2 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1杨陟卓.基于上下文翻译的有监督词义消歧研究[J].计算机科学,2017,44(4):252-255. 被引量：11
2李国臣,吕雷,王瑞波,李济洪,李茹.基于同义词词林信息特征的语义角色自动标注[J].中文信息学报,2016,30(1):101-107 114. 被引量：7
3张仰森,郭江.四种统计词义消歧模型的分析与比较[J].北京信息科技大学学报（自然科学版）,2011,26(2):13-18. 被引量：7
4翟继强,王克奇.依据TRIZ发明原理的中文专利自动分类[J].哈尔滨理工大学学报,2013,18(3):1-5. 被引量：11
5赵谦,荆琪,李爱萍,段利国.一种基于语义与句法结构的短文本相似度计算方法[J].计算机工程与科学,2018,40(7):1287-1294. 被引量：18
6谭冠群,丁华福.改进的K最近特征线算法在文本分类中的应用[J].哈尔滨理工大学学报,2008,13(6):19-22. 被引量：1

二级参考文献49

1胡荣,罗庆云.kNN算法在文本分类中的改进[J].南华大学学报（自然科学版）,2005,19(3):78-80. 被引量：4
2卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：28
3刘怀军,车万翔,刘挺.中文语义角色标注的特征工程[J].中文信息学报,2007,21(1):79-84. 被引量：39
4刘挺,车万翔,李生.基于最大熵分类器的语义角色标注[J].软件学报,2007,18(3):565-573. 被引量：73
5SEBASTIANI F. Machine Learning in Automated Text Categorization[ J]. ACM Computing Surveys,2002,34( 1 ) :1 -47.
6Seong-Bae Park,Byoung-Tak Zhang,Yung Taek Kim.Word sense disambiguation by learning decision trees from unlabeled data[J].Applied Intelligence,2003(19):27-38.
7Salton G,Buckley B.Term-weighting approaches in automatic text retrieval[J].Information Processing and Management,1988,24(5):513-523.
8Della Pietra,V Della Pietra,Mercer R L,et al.Adaptive language modeling using minimum discriminant estimation[C] // In Proceedings of the Speech and Natural Language DARPA Wokershop,1992.
9Adma L Berge,Stephen A Della Pietra,Vincent J Della Pietra.A maximum entropy approach to natural language processing[J].Computational Linguistic,22(1):39-71,1996.
10张仰森.面向语言资源建设的汉语词义消歧与标注方法研究[D].北京:北京大学计算语言学研究所,2006

共引文献48

1柏晓鹏.义类标注:必要性和可行性[J].语言学论丛,2020(1):116-134.
2张仰森,郭江.动态自适应加权的多分类器融合词义消歧模型[J].中文信息学报,2012,26(1):3-8. 被引量：1
3常娥,张长秀,侯汉清,惠富平.基于向量空间模型的古汉语词义自动消歧研究[J].图书情报工作,2013,57(2):114-118. 被引量：6
4袁军.汉语语句相似度算法在问答系统中的应用研究[J].黑龙江教育学院学报,2013,32(4):63-64. 被引量：1
5苗海,张仰森.规则与统计相结合的词义消歧方法研究[J].计算机科学,2013,40(12):282-286. 被引量：2
6胡正银,方曙.专利文本技术挖掘研究进展综述[J].现代图书情报技术,2014(6):62-70. 被引量：17
7傅骏,魏继业,周杰,殷国富.基于TRIZ矛盾矩阵的快速熔模铸造工艺开发与实践[J].铸造技术,2016,37(2):380-383. 被引量：6
8赵冬晓,王效岳,白如江,刘自强.面向情报研究的文本语义挖掘方法述评[J].现代图书情报技术,2016(10):13-24. 被引量：7
9闫树军,何邦贵,王伟,李勇,万畅.基于TRIZ矛盾矩阵的热钢在线自动打码装置的创新[J].冶金设备,2016(6):4-8. 被引量：1
10李国佳,赵莹地,郭鸿奇.一种基于多义词向量表示的词义消歧方法[J].智能计算机与应用,2018,8(4):52-56. 被引量：4

同被引文献50

1范鹏程,沈英汉,许洪波,程学旗,廖华明.融合实体知识描述的实体联合消歧方法[J].中文信息学报,2020(7):42-49. 被引量：5
2王丁,齐浩亮,吴丽君.语料库的质量评估模型[J].哈尔滨理工大学学报,2007,12(3):62-64. 被引量：1
3程启月.评测指标权重确定的结构熵权法[J].系统工程理论与实践,2010,30(7):1225-1228. 被引量：524
4余红梅,罗艳虹,萨建,艾永梅.组内相关系数及其软件实现[J].中国卫生统计,2011,28(5):497-500. 被引量：143
5赵玎,陈贵梧.从电子政务到智慧政务:范式转变、关键问题及政府应对策略[J].情报杂志,2013,32(1):204-206. 被引量：43
6罗贤春,余波,姚明.信息链视角的电子政务发展阶段分析[J].图书馆学研究,2014(6):35-40. 被引量：9
7张涛,刘康,赵军.一种基于图模型的维基概念相似度计算方法及其在实体链接系统中的应用[J].中文信息学报,2015,29(2):58-67. 被引量：17
8王俊明,茹杨,陈瑜,徐延新.基于余弦核函数在Solve-the-Equation方法下的核密度估计[J].哈尔滨理工大学学报,2016,21(1):114-117. 被引量：3
9乔舰.组内相关系数的理论基础及建模应用[J].统计与信息论坛,2016,31(11):44-48. 被引量：75
10张雄,陈福才,黄瑞阳.基于融合特征相似度的实体消歧方法研究[J].计算机应用研究,2017,34(2):347-350. 被引量：7

引证文献2

1王伟,赵尔平,崔志远,孙浩.基于HowNet义原和Word2vec词向量表示的多特征融合消歧方法[J].计算机应用,2021,41(8):2193-2198. 被引量：7
2付饶,刘惠篮.多维度下政务答复质量评价模型的构建与应用[J].哈尔滨理工大学学报,2023,28(4):65-76. 被引量：1

二级引证文献8

1腊志垚,钱育蓉,冷洪勇,顾天宇,张继元,李自臣.基于随机游走的图嵌入研究综述[J].计算机工程与应用,2022,58(13):1-13. 被引量：7
2高珊,何安娜,肖清泉.基于深度学习的司法判罚研究[J].电子设计工程,2022,30(17):23-27.
3吴靖.基于多源数据分析的区域划分形态识别与优化技术研究[J].电子设计工程,2023,31(14):57-61. 被引量：1
4刘斌,张倩,魏亚琴,崔学英,智红英.基于表达式的逐层聚合和动态选择的图到方程树模型[J].计算机应用,2023,43(8):2390-2395.
5杨泉.嵌入式词向量的实现原理研究[J].计算机与数字工程,2023,51(11):2602-2607.
6石水倩,金晶,沈耕宇,王宝佳,任妮.基于多元相似度融合的中文命名实体消歧方法[J].数据分析与知识发现,2024,8(2):56-64.
7唐娜娜,唐旭军.基于景观质量评价的桂林漓江风景区生态优化设计[J].森林工程,2024,40(3):66-75.
8闫亚亚,邢红兵.基于节点词全句共现的动态词义消歧研究[J].语言科学,2024,23(4):354-364.

1谢森.功能对等理论与信息型文本翻译研究[J].小说月刊（下半月）,2020,0(2):0195-0195.
2王燕,李鑫.基于LDP特征和贝叶斯模型的人脸识别[J].计算机科学,2017,44(12):283-286. 被引量：4
3苏清中.生活情境在小学数学中的应用[J].江西教育,2020(21):74-74.
4王伟,黄德根.基于滑动语义串匹配(SMOSS)的汉语词义消歧[J].小型微型计算机系统,2020,41(7):1345-1350. 被引量：2
5李剑蓝.大学英语写作中的英语强势词使用研究[J].校园英语,2020(14):1-3.
6何阳宇,晏雷,易绵竹,李宏欣.融合CRF与规则的老挝语军事领域命名实体识别方法[J].计算机工程,2020,46(8):297-304. 被引量：11
7国际学术传播工具——ORCID[J].华西口腔医学杂志,2020,38(4):424-424.
8彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
9蒋海英.对外汉语教学中的语境应用研究[J].林区教学,2020(8):54-56. 被引量：1
10莫天金,李韧,杨建喜,李童,蒋仕新,李东.公路桥梁定期检测领域命名实体识别语料库构建[J].计算机应用,2020,40(S01):103-108. 被引量：6

哈尔滨理工大学学报

2020年第3期

浏览历史

内容加载中请稍等...

结合词形词性和译文的汉语词义消歧被引量：2

参考文献6

二级参考文献49

共引文献48

同被引文献50

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

结合词形词性和译文的汉语词义消歧 被引量：2

参考文献6

二级参考文献49

共引文献48

同被引文献50

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

结合词形词性和译文的汉语词义消歧被引量：2