一种改进的汉语全文无指导词义消歧方法被引量：6

An Improved Word Sense Disambiguation Method for Chinese Full-words Based on Unsupervised Learning

下载PDF

导出

摘要针对现存的基于EM(Expectation maximization)迭代的无指导词义消歧方法收敛缓慢、计算量大的问题,利用互信息和Z-测试结合的方法选取特征,并通过一种统计学习算法估算初始参数值.实验结果表明改进方法有效地提高了汉语词义消歧的准确率,具有良好的扩展性和实用性. The existing word sense disambiguation methods based on expectation maximization （EM） unsupervised learning need a large amount of computation and converge slowly. To address the problems, an improved method is proposed, which makes use of mutual information theory based on Z-test to select features and uses a statistical learning algorithm to estimate initial parameter values. The experimental result shows that the proposed method improves effectively the precision of word sense disambiguation and has good expansibility and practicability.

作者李旭刘国华张东明

机构地区燕山大学信息科学与工程学院秦皇岛职业技术学院

出处《自动化学报》 EI CSCD 北大核心 2010年第1期184-187,共4页 Acta Automatica Sinica

基金国家自然科学基金(60773100)资助~~

关键词词义消歧无指导学习特征提取参数估计 Word sense disambiguation, unsupervised learning, feature extraction, parameter estimation

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Ide N, Veronis J. Word sense disambiguation: the state of the art. Computational Linguistics, 1998, 24(1): 1-41.
2Lin S D, Kaxin V. A semantics-enhanced language model for unsupervised word sense disambiguation. In: Proceedings of the 9th International Conference on Computational Linguistics and Intelligent Text Processing. Haifa, Israel: Springer, 2008. 287-298.
3McCarthy D, Koeling R, Weeds J, Carroll J. Unsupervised acquisition of predominant word senses. Computational Linguistics, 2007, 33(4): 553-590.
4Pedersen T, Bruce R. Distinguishing word senses in untagged text. In: Proceedings of the 2nd Conference on Empirical Methods in Natural Language Processing. New York, USA: 1997. 197-207.
5卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：27
6李涓子,黄昌宁.语言模型中一种改进的最大熵方法及其应用[J].软件学报,1999,10(3):257-263. 被引量：16
7盛骤.概率论与数理统计.上海:上海交通人学出版社,1999.83-84.
8Klein D. Unsupervised learning for natural language processing. In: Proceedings of the 21st Annual Conference on Learning Theory. Helsinki, Finland: Springer, 2008. 5-6.
9Cai Ji-Hong, Song Fei. Maximum entropy modeling with feature selection for text categorization. In: Proceedings of the 4th Asia Information Retrieval Symposium. Harbin, China: Springer, 2008. 549-554.
10卢志茂刘挺李生.面和基于统计骑汶语训义消歧模型[J].哈尔滨工业大学学报,2005,37(7):119-122.

二级参考文献61

1宋余庆,罗永刚,孙志挥.应用主分量分析与粗糙集处理的特征提取[J].计算机工程与应用,2004,40(22):48-50. 被引量：7
2卢志茂,刘挺,郎君,李生.神经网络和贝叶斯网络在汉语词义消歧上的对比研究[J].高技术通讯,2004,14(8):15-19. 被引量：9
3黄昌宁,李涓子.词义排歧的一种语言模型[J].语言文字应用,2000(3):85-90. 被引量：16
4陈彬,洪家荣,王亚东.最优特征子集选择问题[J].计算机学报,1997,20(2):133-138. 被引量：96
5Nancy Ide and Jean Véronis.Introduction to the special issue on word sense disambiguation:The state of the art[J].In Computational Linguistics,1998,24(1):1-40.
6H Schütze.Automatic word sense discrimination[J].Compu-tat ional Linguistics,1998,24(1):97-123.
7董振东.HowNet[DB/OL].http://www.keenage.com.2002.
8George A.Miller.(Ed.) WordNet:An on-line lexical database [J].International Journal of Lexicography,1990,3(4):235-312.
9W A Gale,K W Church,D Yarowsky.Using bilingual materials to develop word sense disambiguation methods[A].Proceedings of the Fourth International Conference on Theoretical and Methodological Issues in Machine Translation[C].Montréal,Canada,1992.101-112.
10David Yarowsky.Unsupervised word sense disambiguation rivaling supervised methods[A].In Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics[C].Cambridge,MA.1995.189-196.

共引文献50

1卢志茂,刘挺,郎君,李生.神经网络和贝叶斯网络在汉语词义消歧上的对比研究[J].高技术通讯,2004,14(8):15-19. 被引量：9
2刘德荣 ,王永成 ,刘传汉 .基于主题概念的多文档自动摘要研究[J].情报学报,2005,24(1):69-74. 被引量：7
3张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：65
4陈笑蓉,秦进.基于最大熵原理的汉语词义消歧[J].计算机科学,2005,32(5):174-176. 被引量：7
5余正涛,樊孝忠.基于最大熵模型的汉语问句语义组块分析[J].计算机工程,2005,31(17):3-5. 被引量：5
6金珠,林鸿飞,赵晶.基于HowNet的话题跟踪及倾向性分类研究[J].情报学报,2005,24(5):555-561. 被引量：21
7刘挺,卢志茂,郎君,李生.Chinese word sense disambiguation based on neural networks[J].Journal of Harbin Institute of Technology(New Series),2005,12(4):408-414.
8熊静娴,李生红.基于概念网络的文本信息监控技术[J].信息安全与通信保密,2005,27(10):57-59. 被引量：2
9赵丰年,刘林,商建云.基于概念的文本过滤模型[J].计算机工程与应用,2006,42(4):186-188. 被引量：11
10卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：27

同被引文献61

1陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
2卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：27
3刘风成,黄德根,姜鹏.基于AdaBoost.MH算法的汉语多义词消歧[J].中文信息学报,2006,20(3):6-13. 被引量：7
4魏伟.汉语离合词研究综述[J].锦州医学院学报（社会科学版）,2006,4(4):80-83. 被引量：4
5李娟子.汉语词义消歧方法研究[D].北京:清华大学,1999.
6百度百科.古书注解[EB/OL].[2012-05-23].http ://baike. baidu. com/view/793424. htm#3.
7Lesk M. Automatic Sense Disambiguation Using Machine Readable Dictionaries: how to tell a pine cone from an ice cream cone[ C ]// Proceedings of the 5th International Conference on Systems Documentation. Toronto Canada: ACM, 1986 : 24 - 26.
8Manning C D, Schutze H. Foundations of statistical natural language processing [ M ]. Cambridge : The MIT Press, 1999 : 229 - 260.
9Yarowsky D. Word-sense disambiguation using statistical models of Roger' s categories trained on large corpora[ EB/OL]. [ 2012 -05 -23 ]. http://www, informatik, uni -trier. de/～ ley/db/conf/coling/coling1992. html.
10Ng H T and Lee H B. Integrating multiple knowledge sources to disambiguate word sense: An example based approach [ EB/OL]. [2012 -05 -23 ]. http://citeseerx. ist. psu. edu/showciting?cid = 4549.

引证文献6

1常娥,张长秀,侯汉清,惠富平.基于向量空间模型的古汉语词义自动消歧研究[J].图书情报工作,2013,57(2):114-118. 被引量：6
2张春祥,栾博,高雪瑶,卢志茂.基于句法分析的汉语词义消歧[J].计算机应用研究,2014,31(1):40-42. 被引量：3
3张春祥,栾博,高雪瑶,卢志茂.句法信息指导的汉语词义消歧[J].计算机工程与应用,2015,51(5):142-145.
4张春祥,邓龙,高雪瑶,卢志茂.结合语义知识的汉语词义消歧[J].计算机工程与应用,2016,52(3):119-122. 被引量：2
5张振景,李新福,田学东,王凯.基于SVM的离合词词义消歧[J].计算机科学,2016,43(2):239-244. 被引量：4
6张春祥,徐志峰,高雪瑶.一种半监督的汉语词义消歧方法[J].西南交通大学学报,2019,54(2):408-414. 被引量：7

二级引证文献19

1吴晨生,郭金忠,罗植,廖涛.中国科普网站的特征向量研究[J].科普研究,2013,8(5):43-46.
2刘忠宝,赵文娟,贾君枝.多标记用户分类系统构建方法研究[J].图书情报工作,2014,58(10):145-148. 被引量：1
3毛婷婷,吕学强,周强,刘殷.融合从底向上与自顶向下的中文复杂句人工标注方法[J].小型微型计算机系统,2016,37(4):716-721. 被引量：1
4顾磊,赵阳.古籍智能整理研究现状及存在的问题[J].图书馆学研究,2016(9):54-58. 被引量：4
5史兆鹏,邹徐熹,向润昭.基于依存句法分析的多特征词义消歧[J].计算机工程,2017,43(9):210-213. 被引量：12
6汤萌,李芳,王昕.历史地理信息的获取与标准化——以上海交通大学馆藏地方历史文献为例[J].图书馆杂志,2018,37(1):50-57. 被引量：6
7李国佳,赵莹地,郭鸿奇.一种基于多义词向量表示的词义消歧方法[J].智能计算机与应用,2018,8(4):52-56. 被引量：4
8王子牛,陈娅先,高建瓴,吴建华,王许.基于神经网络的词义消歧[J].软件,2019,40(2):11-15. 被引量：1
9唐善成,马付玉,张镤月,陈熊熊.采用Seq2Seq模型的非受限词义消歧方法[J].西北大学学报（自然科学版）,2019,49(3):351-355. 被引量：5
10张延星,王广祥,朱志芸,张蝶依.基于知识图谱词义消歧的文本聚类方法[J].华北理工大学学报（自然科学版）,2019,41(4):89-94. 被引量：1

1刘晓亮,李家滨.基于数据挖掘的网络入侵检测系统研究[J].计算机应用与软件,2009,26(4):253-256. 被引量：8
2李世奇,赵铁军,陈晨,刘鹏远.基于ART网络的无指导中文共指消解方法[J].高技术通讯,2009,19(9):926-932.
3朱佳贤.无指导学习环境下基于属性相关性分析和聚类算法的属性选择问题研究[J].管理学报,2005,2(S2):162-165. 被引量：2
4石晶,李万龙.汉语语义分析方法研究[J].计算机应用研究,2010,27(2):529-531. 被引量：4
5张春祥,邓龙,高雪瑶,卢志茂.结合语义知识的汉语词义消歧[J].计算机工程与应用,2016,52(3):119-122. 被引量：2
6陈笑蓉,秦进.基于最大熵原理的汉语词义消歧[J].计算机科学,2005,32(5):174-176. 被引量：7
7陈凯,朱钰.机器学习及其相关算法综述[J].统计与信息论坛,2007,22(5):105-112. 被引量：82
8韩自豪.有指导的数据挖掘在心脏病风险评价中的应用[J].商情,2014(21):169-169.
9胡威,李建华,陈波.入侵检测建模过程中特征提取最优化评估[J].计算机工程,2006,32(12):150-151. 被引量：2
10宋洋,王厚峰.共指消解研究方法综述[J].中文信息学报,2015,29(1):1-12. 被引量：9

自动化学报

2010年第1期

浏览历史

内容加载中请稍等...

一种改进的汉语全文无指导词义消歧方法被引量：6

参考文献11

二级参考文献61

共引文献50

同被引文献61

引证文献6

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

一种改进的汉语全文无指导词义消歧方法 被引量：6

参考文献11

二级参考文献61

共引文献50

同被引文献61

引证文献6

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

一种改进的汉语全文无指导词义消歧方法被引量：6