一个全文词义自动标注系统的实现被引量：3

Implement a full-text automatic system for word sense tagging

下载PDF

导出

摘要为研究在给定上下文中如何确定多义词的词义,介绍了一种无指导的词义消歧技术和一个汉语全文词义标注系统的设计实现过程.该系统基于贝叶斯模型,使用大规模语料进行训练,较好地解决了知识获取中数据稀疏的问题.该系统具有标注正确率高和运行速度快等特点,适合大规模文本的词义标注工作. Word sense disambiguation has been a very active research topic in the NLP field, which studies how to determine which of the senses of an ambiguous word is invoked in a particular context using sense classifiers. This paper presents a technique for unsupervised word sense disambiguation and implements the process of a full - text word sense tagging system. This system performs word sense disambiguation based on the Nave Bayesian Model, uses largescale corpora as training data, and it is able to preferentially conquer the problem of Sparse Data in Knowledge Acquisition. In addition, this system has the characteristics of high accuracy and quick running speed. Thus, this system is competent for word sense tagging on large - scale, real - word text.

作者刘挺卢志茂李生

机构地区哈尔滨工业大学计算机科学与技术学院

出处《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2005年第12期1603-1605,1649,共4页 Journal of Harbin Institute of Technology

基金国家自然科学基金资助重点项目(60435020)

关键词词义梢歧自然语言处理无指导学习算法贝叶斯模型依存文法 word sense disambiguation natural language processing unsupervised learning algorithm Nave-Bayesian Model dependency grammar

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1NANCY I, JEAN V. Introduction to the special issue on word sense disamibguation: The state of the art [ J ].Computational Linguistics, 1998, 24 ( 1 ): 1 -40.
2DAGAN I, ITAI A. Two languages are more informative than one[ A]. Proceedings of the 29^th Annual Meeting of Association for Computation Linguistics [ C ]. Berkeley:Association for Computational Lintuistics, 1991.
3YAROWSKY D. Word sense disambiguation using statistical methods of Roget's categories trained on large corpora [ A ]. Computation Linguistic' 92 [ C ]. Nantas: Association for Computational Linguistics, 1992. 454-460.
4SCHUTZE H. Automatic word sense discrimination [ J ].Computational Linguistics, 1998,24( 1 ) :97 - 124.
5鲁松,白硕,黄雄,张健.基于向量空间模型的有导词义消歧[J].计算机研究与发展,2001,38(6):662-667. 被引量：36

二级参考文献2

1李娟子.汉语词义消歧方法研究：博士论文[M].北京：清华大学,1999..
2李娟子，博士论文，1999年

共引文献35

1李国臣,段建勇.基于语法语义信息量化模型的语素字再分类[J].计算机工程,2004,30(11):37-39.
2卢志茂,刘挺,郎君,李生.神经网络和贝叶斯网络在汉语词义消歧上的对比研究[J].高技术通讯,2004,14(8):15-19. 被引量：9
3余正涛,宋丽哲,樊孝忠.基于本体的个性化领域信息服务[J].计算机工程,2005,31(5):22-24. 被引量：17
4王术,付关友,朱征宇.面向个性化服务的网页特征描述[J].计算机工程与设计,2005,26(3):651-653. 被引量：3
5陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
6陈浩,何婷婷,姬东鸿.基于MDL聚类的无导词义消歧[J].小型微型计算机系统,2005,26(10):1846-1849. 被引量：2
7刘冬明,杨尔弘,方莹.汉英双语平行语料库的词义标注[J].中文信息学报,2005,19(6):50-56. 被引量：4
8刘挺,卢志茂,郎君,李生.Chinese word sense disambiguation based on neural networks[J].Journal of Harbin Institute of Technology(New Series),2005,12(4):408-414.
9何婷婷,谢芳.利用BP神经网络的中文词义消歧模型[J].华中师范大学学报（自然科学版）,2005,39(4):470-474. 被引量：1
10刘洋.网络“三剑客”的传播特性比较[J].新闻实践,2006(2):30-31.

同被引文献31

1王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
2苏新春.关于《现代汉语词典》词汇计量研究的思考[J].世界汉语教学,2001,15(4):39-47. 被引量：18
3黄昌宁,李涓子.词义排歧的一种语言模型[J].语言文字应用,2000(3):85-90. 被引量：16
4全昌勤,何婷婷,姬东鸿,刘辉.基于义类的无导词义消歧方法的研究[J].计算机应用研究,2005,22(4):39-41. 被引量：2
5陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
6何婷婷,谢芳.利用BP神经网络的中文词义消歧模型[J].华中师范大学学报（自然科学版）,2005,39(4):470-474. 被引量：1
7卢志茂,刘挺,李生.基于无指导机器学习的全文词义自动标注方法[J].自动化学报,2006,32(2):228-236. 被引量：2
8吴云芳,俞士汶.信息处理用词语义项区分的原则和方法[J].语言文字应用,2006(2):126-133. 被引量：30
9李葆嘉,李瑞.试论词汇系统的语义性本质[J].江苏大学学报（社会科学版）,2007,9(1):83-88. 被引量：9
10黄果,周竹荣.基于领域本体的概念语义相似度计算研究[J].计算机工程与设计,2007,28(10):2460-2463. 被引量：67

引证文献3

1周明海,亢世勇,王莉.基于多部词典的目标动词义项标注的困难及解决策略[J].语言文字应用,2011(2):135-142.
2李安.多义词义项的语义关系及其对词义消歧的影响[J].语言文字应用,2014(1):29-37. 被引量：10
3王东,熊世桓.基于同义词词林扩展的短文本分类[J].兰州理工大学学报,2015,41(4):104-108. 被引量：9

二级引证文献19

1宋贝贝.《现代汉语分类词典》的编纂特色与应用价值[J].厦大中文学报,2020(1):261-272.
2代玲玲.国际汉语教学中的同类属偏旁词语考察[J].中国文字学报,2021(1):246-254.
3吕伯宁.基于现代汉语语料库考察下的“苦”之义项分析[J].海外华文教育,2017(3):308-320. 被引量：1
4段旭磊,张仰森,郭正斌.微博文本聚类中特征扩展策略研究[J].计算机工程与应用,2017,53(13):90-94. 被引量：2
5傅瑛.以Cone为例看多义词语义网络[J].成都大学学报（社会科学版）,2017(3):84-91. 被引量：2
6杜亚璞.一种基于改进ML-KNN的微博文本分类方法[J].信息与电脑,2018,30(7):42-44. 被引量：1
7杨腾飞,解吉波,李振宇,李国庆.微博中蕴含台风灾害损失信息识别和分类方法[J].地球信息科学学报,2018,20(7):906-917. 被引量：23
8代玲玲.基于汉语国际教育的多义形容词语义距离研究[J].合肥师范学院学报,2018,36(1):79-83.
9雷朔,刘旭敏,徐维祥.基于词向量特征扩展的中文短文本分类研究[J].计算机应用与软件,2018,35(8):269-274. 被引量：16
10段宇光,刘扬,俞士汶.《同义词词林》的嵌入表示与应用评估[J].厦门大学学报（自然科学版）,2018,57(6):867-875. 被引量：2

1卢志茂,刘挺,李生.基于无指导机器学习的全文词义自动标注方法[J].自动化学报,2006,32(2):228-236. 被引量：2
2卢志茂,刘挺,丁江伟,李生.基于依存分析和贝叶斯网络的无指导汉语词义消歧[J].高技术通讯,2004,14(2):7-11. 被引量：3
3乔剑敏,张仰森.词义标注一致性检验系统的设计与实现[J].中文信息学报,2010,24(4):44-51. 被引量：3
4李天颍,刘璘,赵德旺,曹原.一种基于依存文法的需求文本策略依赖关系抽取方法[J].计算机学报,2013,36(1):54-62. 被引量：15
5秦学勇,张润梅.两级相似度计算在主观题机器阅卷中的应用[J].计算机工程,2012,38(11):274-276.
6秦元巧,孙国强.改进的句子相似度计算在问答系统中的应用[J].微计算机信息,2011,27(8):206-208. 被引量：2
7刘宝艳,林鸿飞,赵晶.基于改进编辑距离和依存文法的汉语句子相似度计算[J].计算机应用与软件,2008,25(7):33-34. 被引量：22
8刘贵全,曾宇斌.基于最大熵模型的汉语依存分析[J].计算机工程,2006,32(11):216-218. 被引量：2
9沈超.基于子树的确定性依存分析方法[J].计算机应用与软件,2011,28(2):268-270.
10华强,李师贤.模糊超球神经网络的条件重叠学习算法[J].中山大学学报（自然科学版）,2004,43(1):1-4.

哈尔滨工业大学学报

2005年第12期

浏览历史

内容加载中请稍等...

一个全文词义自动标注系统的实现被引量：3

参考文献5

二级参考文献2

共引文献35

同被引文献31

引证文献3

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

一个全文词义自动标注系统的实现 被引量：3

参考文献5

二级参考文献2

共引文献35

同被引文献31

引证文献3

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

一个全文词义自动标注系统的实现被引量：3