基于深层特征抽取的日文词义消歧系统被引量：1

Japanese word sense disambiguation system based on deep feature extraction

导出

摘要词义消歧的特征来源于上下文.日文兼有中英文的语言特性,特征抽取更为复杂.针对日文特点,在词义消歧逻辑模型基础上,利用最大熵模型优良的信息融合性能,采用深层特征抽取方法,引入语义、句法类特征用于消解歧义.同时,为避免偏斜指派,采用BeamSearch算法进行词义序列标注.实验结果表明,与仅使用表层词法类特征方法相比,本文构造的日文词义消歧系统的消歧精度提高2%～3%,动词消歧精度获得5%的改善. The features of word sense disambiguation （WSD） come from the context. Japanese has linguistic features of both Chinese and English at the same time, thus the feature extraction of Japanese is more complicated. Considering Japanese features, based on the proposed WSD logic model and applying the characteristics of information integration of the maximum entropy model, WSD was solved by the deep feature extraction method, introducing semantics and syntactics features. Meanwhile, for preventing the skewed assignment of lonely word sense, the word sense tagging of word sequences was completed with the BeamSearch algorithm. Experiment results show that compared with WSD methods which only focus on the surface lexical features, the disambiguation accuracy of the Japanese WSD system proposed in this paper increases 2% to 3% , and the WSD accuracy of verbs improves 5%.

作者雷雪梅王大亮田中贵秋曾广平

机构地区北京科技大学信息工程学院中国电信集团系统集成公司 NTT通信科学研究所自然语言研究组

出处《北京科技大学学报》 EI CAS CSCD 北大核心 2010年第2期263-269,共7页 Journal of University of Science and Technology Beijing

基金国家高技术研究发展计划资助项目(No.2007AA01Z170)

关键词自然语言处理词义消歧最大熵模型特征抽取 natural language processing word sense disambiguation maximum entropy model feature extraction

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1Manning C D, Schutze H. Foundations of Statistical Natural Language Processing. Cambridge: MIT Press, 1999:143.
2卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：28
3朱靖波,李珩,张跃,姚天顺.基于对数模型的词义自动消歧[J].软件学报,2001,12(9):1405-1412. 被引量：13
4Murata M, Utiyama M, Uchimoto K, et al. Japanese word sense disambiguation using the simple Bayes and support vector machine methods // Proceedings of the SENSEVAL-2 , Toulouse, 2001 : 135.
5Ratnaparkhi A. Maximum Entropy Models for Natural Language Ambiguity Resolution [ Dissertation ]. Philadelphia: University of Pennsylvania, 1998.
6Zhang L. Maximum Entropy Modeling Toolkit for Python and C + +. [2006-10-05 ]. http: //homepages. inf. ed. ac. uk/ s0450736! maxent _ toolkit, html.
7王大亮,张德政,涂序彦,郑雪峰,佟子健.基于相对条件熵的搭配抽取方法[J].北京邮电大学学报,2007,30(6):40-45. 被引量：3
8Carl P, Ivan A S. Head Driven Phrase Structure Grammar. Chicago: University of Chicago Press, 1994.
9Christoph T. Word reordering and a dynamic programming beam search algorithm for statistical machine translation. Comput Linguist, 2003, 29(1):97.
10Tanaka T, Francis B, Fujita S. The Hinoki sensebank--a largescale word sense tagged corpus of Japanese// Proceedings of the Workshop on Frontiers in Linguistically Annotated Gorpora. Sydney, 2006 : 62.

二级参考文献70

1宋余庆,罗永刚,孙志挥.应用主分量分析与粗糙集处理的特征提取[J].计算机工程与应用,2004,40(22):48-50. 被引量：7
2孙茂松,黄昌宁,方捷.汉语搭配定量分析初探[J].中国语文,1997(1):29-38. 被引量：55
3卢志茂,刘挺,郎君,李生.神经网络和贝叶斯网络在汉语词义消歧上的对比研究[J].高技术通讯,2004,14(8):15-19. 被引量：9
4黄昌宁,李涓子.词义排歧的一种语言模型[J].语言文字应用,2000(3):85-90. 被引量：16
5陈彬,洪家荣,王亚东.最优特征子集选择问题[J].计算机学报,1997,20(2):133-138. 被引量：96
6Stetina Jiri，Proc 5th Workshop on Very Large Corpora，1997年，66页
7Nancy Ide and Jean Véronis.Introduction to the special issue on word sense disambiguation:The state of the art[J].In Computational Linguistics,1998,24(1):1-40.
8H Schütze.Automatic word sense discrimination[J].Compu-tat ional Linguistics,1998,24(1):97-123.
9董振东.HowNet[DB/OL].http://www.keenage.com.2002.
10George A.Miller.(Ed.) WordNet:An on-line lexical database [J].International Journal of Lexicography,1990,3(4):235-312.

共引文献41

1刘莉,谈文蓉.统计学习方法在语义消歧中的应用研究[J].西南民族大学学报（自然科学版）,2007,33(1):193-196.
2甄凤超.语料库语言学在中国的成长与发展[J].当代外语研究,2010(3):36-41. 被引量：26
3李朝虹,陆建湖.现代汉语自动分析研究现状综述[J].广西教育学院学报,2003(1):112-116. 被引量：1
4刘冬明,杨尔弘,方莹.汉英双语平行语料库的词义标注[J].中文信息学报,2005,19(6):50-56. 被引量：4
5谈文蓉,杨宪泽,刘莉.汉语自动排歧方法研究[J].西南民族大学学报（自然科学版）,2005,31(6):971-976. 被引量：1
6卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：28
7谈文蓉,符红光,刘莉,杨宪泽.一种基于贝叶斯分类与机读词典的多义词排歧方法[J].计算机应用,2006,26(6):1389-1391. 被引量：5
8席素梅,高茜,徐鑫.浅谈基于改进贝叶斯模型的词义消歧方法[J].山东轻工业学院学报（自然科学版）,2006,20(3):49-51.
9刘远超,王晓龙,徐志明,刘秉权.基于粗集理论的中文关键词短语构成规则挖掘[J].电子学报,2007,35(2):371-374. 被引量：17
10王博,杨沐昀,李生,赵铁军.中文全词消歧在机器翻译系统中的性能评测[J].自动化学报,2008,34(5):535-541. 被引量：6

同被引文献5

1杨寿勋.《统计自然语言处理基础》评介[J].外语教学与研究,2001,33(4):317-319. 被引量：7
2卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：28
3秦颖,王小捷,张素香.汉语分词中组合歧义字段的研究[J].中文信息学报,2007,21(1):3-8. 被引量：11
4张仰森.基于最大熵模型的汉语词义消歧与标注方法[J].计算机工程,2009,35(18):15-18. 被引量：8
5刘宇鹏,李生,赵铁军.基于WordNet词义消歧的系统融合[J].自动化学报,2010,36(11):1575-1580. 被引量：12

引证文献1

1麦范金,李东普,岳晓光.基于双向匹配法和特征选择算法的中文分词技术研究[J].昆明理工大学学报（自然科学版）,2011,36(1):47-51. 被引量：8

二级引证文献8

1索娟娟,于宝英.基于灰熵的汉语机器翻译消歧研究[J].科技信息,2012(3):39-39.
2张禾.新型桌面搜索关键技术的研究与实现[J].硅谷,2012,5(21):95-96.
3张黎,徐蔚然.中文分词研究[J].软件,2012,33(12):103-108. 被引量：6
4冯光,乔丹丹,常静怡.基于分词匹配的主观题自动评阅技术研究[J].计算机与现代化,2013(3):212-214. 被引量：4
5张冰怡,魏博,陈建成,魏杰,饶国政.基于对偶编码的中文分词算法[J].南京理工大学学报,2014,38(4):526-530. 被引量：6
6胡强新,纪鑫,杨俊伟,李端玲.基于电力软件缺陷模式的代码检测技术研究[J].电力信息与通信技术,2017,15(5):92-96. 被引量：2
7陈有伟,康磊.基于Trie树的关键词匹配算法在电子政务领域的应用[J].智能计算机与应用,2019,9(5):167-170. 被引量：3
8夏寒,夏天,张诚,钱晨嗣,刘星航,杨妹,李润美.基于知识图谱的疾病筛查模型研究:以新型冠状病毒肺炎为例[J].中国卫生资源,2022,25(6):799-802. 被引量：1

1毛二松,陈刚,刘欣,王波.基于深层特征和集成分类器的微博谣言检测研究[J].计算机应用研究,2016,33(11):3369-3373. 被引量：23
2朱宪莹,刘箴,金炜,刘婷婷,刘翠娟,柴艳杰.基于特征融合的层次结构微博情感分类[J].电信科学,2016,32(7):106-114. 被引量：6
3李威,杨继臣,贺前华,李艳雄.基于深层说话人矢量的说话人检索[J].华中科技大学学报（自然科学版）,2015,43(7):62-65.
4唐有宝,卜巍,邬向前.多层次MSER自然场景文本检测[J].浙江大学学报（工学版）,2016,50(6):1134-1140. 被引量：10
5冯蕴天,张宏军,郝文宁,陈刚.基于深度信念网络的命名实体识别[J].计算机科学,2016,43(4):224-230. 被引量：14
6沈延斌,陈岭,郭浩东,陈根才.基于深度学习的放置方式和位置无关运动识别[J].浙江大学学报（工学版）,2016,50(6):1141-1148. 被引量：5
7赵旭,刘振平.“vp np u〈的〉np”格式的计算机歧义分析[J].长江大学学报（社会科学版）,2013,36(8):74-77.
8彭天强,栗芳.基于深度卷积神经网络和二进制哈希学习的图像检索方法[J].电子与信息学报,2016,38(8):2068-2075. 被引量：34
9魏英姿,谭龙田,欧阳海飞,赵祉淇.玉米籽粒完整性识别的深度学习方法[J].沈阳理工大学学报,2016,35(4):1-6. 被引量：5
10张永良,张智勤,吴鸿韬,董灵平,周冰.基于改进卷积神经网络的周界入侵检测方法[J].计算机科学,2017,44(3):182-186. 被引量：22

北京科技大学学报

2010年第2期

浏览历史

内容加载中请稍等...

基于深层特征抽取的日文词义消歧系统被引量：1

参考文献12

二级参考文献70

共引文献41

同被引文献5

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于深层特征抽取的日文词义消歧系统 被引量：1

参考文献12

二级参考文献70

共引文献41

同被引文献5

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于深层特征抽取的日文词义消歧系统被引量：1