汉语形容词的自动词义区分研究被引量：1

Researches on Word Sense Discrimination of Chinese Adjective

下载PDF

导出

摘要词义知识获取是词义知识库建设、词义消歧等任务的基础和起点,目前该工作基本依赖人类专家的智慧和洞察力,在大规模文本处理上缺乏意义计算的客观性和一致性。该文以汉语的中高频形容词为样本,深入挖掘词义特征并采用有参数初始化过程的EM迭代算法,实现了从真实文本中自动发现并区分词语词义的过程。该词义区分算法选取易获取的词形特征、基于大规模语料的搭配特征、基于网络语料的属性—宿主关系特征,替代以往难以获取的句法结构特征,并进一步利用HowNet优化了词形特征的选择。该工作可以应用于信息检索等领域,能够对现有词典起到修改和补充的作用,该思路亦可扩展到其他汉语词类上去。 Lexieal knowledge acquisition is the bottleneck for many tasks like word sense disambiguation, lexieal knowledge base construction et al. This paper introduces an automatic word sense discrimination method for Chinese mid-high-frequency adjectives. We employ the EM algorithm and exploit the features of Chinese character, contextual bag-of-words and host-attribute pair instead of the more unreliable syntactic information. We further optimize the morphology selection by utilizing HowNet in our work. The experimental results show that word sense discrimination results are different from Chinese lexicons and could be used for lexicon modification and expansion even for other type of Chinese words.

作者朱虹刘扬俞士汶

机构地区北京大学计算语言学研究所北京大学计算语言学教育部重点实验室

出处《中文信息学报》 CSCD 北大核心 2009年第6期19-25,共7页 Journal of Chinese Information Processing

基金国家973课题资助项目(2004CB318102) 国家自然科学基金资助项目(60775031) 国家社科基金资助项目(08BYY060) 全国优秀博士学位论文作者专项资助项目(200514)

关键词计算机应用中文信息处理知识获取词义区分特征选择 EM算法 computer application Chinese information processing knowledge acquisition word sense discrimination feature selection EM algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1Navigli R. Meaningful Clustering of Senses Helps Boost Word Sense Disambiguation Performance [C]// Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics, COLING-ACL, 2006: 105-112.
2朱虹,刘扬.词汇语义知识库的研究现状与发展趋势[J].情报学报,2008,27(6):870-877. 被引量：4
3Agirr E. and Soroa A. Evaluating Word Sense Induction and Discrimination Systems [C]//Proceedings of the 4th International Workshop on Semantic Evalua- tions (SemEval-2007), 2007: 7-12.
4Schiitze H. Automatic Word Sense Discrimination[J]. Computational Linguistics, 1998, 24 ( 1 ): 97- 124.
5Purandare A. and Pedersen T. Sense Clusters-Finding Clusters that Represent Word Senses [C]//Proceedings of 19th Conference on Artificial Intelligence (AAAI-04), San Jose, CA. 2004.
6Niu, ZY. Ji, DH. Tan, CL. Learning word senses with feature selection and order identification capabilities [C]//Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics, Barcelona, Spain. 2004.
7Pantel P. Lin DK. Discovering Word Senses from Text [C]//Proeeedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining. Edmonton, Canada. 2002: 613-619.
8Fellbaum, C. WordNet - An Electronic Lexical Database [M]. MIT Press, 1998.
9Velldal, E. A Fuzzy clustering approach to word sense discrimination [C]//Proceedings of the 7th International conference on Terminology and Knowledge Engineering, Copenhagen, Denmark. 2005.
10Zhao Y. Karypis G. Hierachical Clustering Algorithms for Document Datasets [J].Data Mining and Knowledge Discovery, 2005, 10: 141-168.

二级参考文献42

1郝秀兰,杨尔弘.基于小规模语料库和机器可读词典的二元分布语义获取[J].中文信息学报,2004,18(6):23-29. 被引量：2
2黄昌宁,李涓子.词义排歧的一种语言模型[J].语言文字应用,2000(3):85-90. 被引量：16
3陈涛,孙茂松.基于SOM的语义词典自动构建实验研究[J].情报学报,2007,26(1):77-83. 被引量：5
4王锦,陈群秀.汉语述语形容词机器词典机器学习词聚类研究[J].中文信息学报,2007,21(3):40-46. 被引量：3
5Eneko A. Clustering of Word Senses[ C]//Proceedings of the Second Global WordNet Conference. Bmo: Czech Republic, 2004: 4-4.
6Hotho A. WordNet improves Text Document Clustering [ C ]//proceeding of the SIGIR2003 Semantic Web Workshop. Canada, 2003.
7Huang Chu-Ren, Chang Ru-Yng, Shiang Bin Lee. Sinica BOW ( Bilingual Ontological Wordnet ): Integration of Bilingual WordNet and SUMO [ C ].//Proceedings of LREC2004. Lisbon, 2004: 1553-1556.
8Dong Z D, Dong Q. Ontology and HowNet[OL]. [2006-04- 23 ]. http://www. keenage. com/html/e_ index. html.
9Liu Y. Extending CCD with Syntagmatic Relation [ C].// Proceeding of SEWM'07. China, 21307.
10Zhu H, Liu Y. MCD: A Joint Semantic Project on East Asian Language [ C ]. //Proceeding of the first International Workshop on Intercultural Collaboration. Springer Berlin/ Heidelberg, 2007(4568) : 159-169.

共引文献5

1朱虹,刘扬.词汇语义知识库的研究现状与发展趋势[J].情报学报,2008,27(6):870-877. 被引量：4
2伍莹.基于“词群—词位变体”理论的现代汉语形容词语义网络构建——以“胖”类形容词为例[J].长江学术,2011(2):167-171. 被引量：1
3张宜浩,金澎,孙锐.基于改进k-means算法的中文词义归纳[J].计算机应用,2012,32(5):1332-1334. 被引量：8
4张铧予,李广建.基于文献的语义资源库建设及其在NSTL中的应用[J].图书情报工作,2012,56(9):18-23. 被引量：3
5哈斯,布音其其格.基于蒙古语名词语义网的同形词歧义消除研究[J].中文信息学报,2016,30(6):230-235. 被引量：1

同被引文献66

1王振华,孔祥龙,陆汝占,刘绍明.结合决策树方法的中文姓名识别[J].中文信息学报,2004,18(6):10-15. 被引量：15
2张克亮.基于HNC理论的句法结构歧义消解[J].中文信息学报,2004,18(6):43-52. 被引量：9
3全昌勤,何婷婷,姬东鸿,刘辉.从搭配知识获取最优种子的词义消歧方法[J].中文信息学报,2005,19(1):30-35. 被引量：13
4刘蓓,杜利民.汉语口语对话系统中语义分析的消歧策略[J].中文信息学报,2005,19(1):76-83. 被引量：3
5杨莹,李应潭.基于意象知识的消歧体系[J].中文信息学报,1993,7(1):40-47. 被引量：1
6钱树人.歧义、系统歧义和语境[J].中文信息学报,1993,7(2):18-26. 被引量：7
7徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
8邰晓英,童頫.限制汉语语法分析中歧义性的启发式方法[J].中文信息学报,1993,7(4):10-17. 被引量：3
9王立霞,孙宏林.现代汉语介词短语边界识别研究[J].中文信息学报,2005,19(3):80-86. 被引量：11
10万建成.语音代码──汉字智能转换研究[J].中文信息学报,1994,8(2):61-72. 被引量：4

引证文献1

1张禄彭,易绵竹,周云.中文歧义研究25年——以《中文信息学报》论文为例[J].中文信息学报,2012,26(4):73-84. 被引量：4

二级引证文献4

1木合亚提·尼亚孜别克,古力沙吾利·塔里甫,古丽拉·阿东别克.哈萨克语NP和VP结构的歧义类型与消除策略研究[J].西南师范大学学报（自然科学版）,2014,39(7):41-46.
2杜家利,于屏方.花园幽径现象理解折返性的数据结构分析[J].中文信息学报,2015,29(1):28-37. 被引量：2
3孙凡,苏垚开.基于XBRL的自然语言语句的形式化标注研究[J].会计之友,2017(24):70-73.
4方玉萍.中文信息处理中的歧义问题分析[J].科技传播,2017,9(13):58-59. 被引量：1

1吴云芳.词义消歧相关术语简介[J].术语标准化与信息技术,2010(3):18-20. 被引量：1
2陈蕾.基于K均值混合高斯模型的声调识别系统性能研究[J].自动化与仪器仪表,2017(2):48-50.
3杨松,楼新远.基于向量空间模型附加词义特征的句子相似度研究[J].成都信息工程学院学报,2012,27(3):239-242. 被引量：3
4鲍新中,张建斌,刘澄.基于粗糙集条件信息熵的权重确定方法[J].中国管理科学,2009,17(3):131-135. 被引量：72
5沙波.移动IPv6中的安全问题及其对策[J].电脑知识与技术,2011,7(4):2264-2265.
6王彩红,咸金龙.非高斯噪声下基于EM迭代算法的多用户检测分析[J].舰船电子工程,2011,31(3):167-169. 被引量：1
7李小平.Visual Foxpro中面向对象编程的技巧[J].电脑开发与应用,2004,17(7):42-42.
8陈伟,张琳娜.主观题自动评阅算法的设计[J].数字技术与应用,2013,31(9):116-116.
9胡维华,鲍乾,李柯.结合汉明距离及语义的文本相似度量方法研究[J].杭州电子科技大学学报（自然科学版）,2016,36(3):36-41. 被引量：6
10王祖辉,姜维.基于粗糙集的在线评论情感分析模型[J].计算机工程,2012,38(16):1-4. 被引量：3

中文信息学报

2009年第6期

浏览历史

内容加载中请稍等...

汉语形容词的自动词义区分研究被引量：1

参考文献13

二级参考文献42

共引文献5

同被引文献66

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

汉语形容词的自动词义区分研究 被引量：1

参考文献13

二级参考文献42

共引文献5

同被引文献66

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

汉语形容词的自动词义区分研究被引量：1