基于大间隔方法的汉语组块分析被引量：7

Chinese Chunking with Large Margin Method

下载PDF

导出

摘要汉语组块分析是中文信息处理领域中一项重要的子任务.在一种新的结构化SVMs(support vector machines)模型的基础上,提出一种基于大间隔方法的汉语组块分析方法.首先,针对汉语组块分析问题设计了序列化标注模型;然后根据大间隔思想给出判别式的序列化标注函数的优化目标,并应用割平面算法实现对特征参数的近似优化训练.针对组块识别问题设计了一种改进的F1损失函数,使得F1损失值能够依据每个句子的实际长度进行相应的调整,从而能够引入更有效的约束不等式.通过在滨州中文树库CTB4数据集上的实验数据显示,基于改进的F1损失函数所产生的识别结果优于Hamming损失函数,各种类型组块识别的总的F1值为91.61%,优于CRFs(conditional random fields)和SVMs方法. Chinese chunking plays an important role in natural language processing. This paper presents a large margin method for Chinese chunking based on structural SVMs （support vector machines）. First, a sequence labeling model and the formulation of the learning problem are introduced for Chinese chunking problem, and then the cutting plane algorithm is applied to efficiently approximate the optimal solution of the optimization problem. Finally, an improved F1 loss function is proposed to tackle Chinese chunking. The loss function can scale the F1 loss value to the length of the sentence to adjust the margin accordingly, leading to more effective constraint inequalities. Experiments are conducted on UPENN Chinese Treebank-4 （CTB4）, and the hamming loss function is compared with the improved F1 loss function. The experimental results show that the training algorithm with the improved F1 loss function can achieve higher performance than the Hamming loss function. The overall F1 score of Chinese chunking obtained with this approach is 91.61%, which is higher than the performance produced by the state-of-the-art machine learning models, such as CRFs （conditional random fields） and SVMs models.

作者周俊生戴新宇陈家骏曲维光

机构地区南京大学计算机软件新技术国家重点实验室南京师范大学计算机科学系

出处《软件学报》 EI CSCD 北大核心 2009年第4期870-877,共8页 Journal of Software

基金国家自然科学基金Nos.60673043,60773173 国家高技术研究发展计划(863)No.2006AA01Z143 江苏省自然科学基金No.BK2006117 江苏省高校自然科学基金No.07KJB520057~~

关键词汉语组块分析大间隔判别式学习损失函数 Chinese chunking large margin discriminative learning loss function

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1李珩,朱靖波,姚天顺.基于SVM的中文组块分析[J].中文信息学报,2004,18(2):1-7. 被引量：50
2李素建,刘群,杨志峰.基于最大熵模型的组块分析[J].计算机学报,2003,26(12):1722-1727. 被引量：58

二级参考文献15

1[1]Erik F, Tjong Kim Sang,Buchholz S. Introduction to the CoNLL-2000 Shared Task: Chunking. In: Proceedings of CoNLL2000 and LLL-2000, Lisbon, Portugal, 2000. 127～132
2[2]Steven A. Parsing by Chunks. In: Berwick, Abney, Tenny eds. Principle-Based Parsing: Kluwer Academic Publishers,1991. 257～278
3[5]Ratnaparkhi A. A maximum entropy model for part-of-speech tagging. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing, 1996
4[6]Ratnaparkhi A. A simple introduction to maximum entropy models for natural language processing. Institute for Research in Cognitive Science, University of Pennsylvania : Technical Report 9708, 1997
5[7]Berger A, Pietra S D, Pietra V D. A maximum entropy approach to natural language processing. Computational Linguistics, 1996,22(1):39～71
6[8]Skut, Wojciech, Thorsten Brants. A maximum entropy partial parser for unrestricted text. In:Proceedings of the 6th Workshop on Very Large Corpora, Montreal, Canada, 1998. 143～151
7[10]Abney S. Part-of-speech tagging and partial parsing. In:Church K, Young S, Bloothooft G eds. Corpus-Based Methods in Language and Speech, An ELSNET volume, Dordrecht:Kluwer Academic Publishers, 1996. 119～136
8[11]Church K W. A stochastic parts program and noun phrase parser for unrestricted text. In:Proceedings of the 2nd Conference on Applied Natural Language Processing, Texas, USA, 1988.136～143
9[12]Ramshaw L A, Marcus M P. Text chunking using transformation-based learning. In: Proceedings of ACL Third Workshop on Very Large Corpora, Cambridge, USA, 1995. 82～94
10[13]Darroch J N, Ratcliff D. Generalized iterative scaling for loglinear models. Annals of Mathematical Statistics, 1972,43(5):1470～1480

共引文献90

1陈晓明,周渝.汉语部分句法分析的研究和发展趋势[J].贵州大学学报（自然科学版）,2004,21(4):384-386. 被引量：2
2干俊伟,黄德根.汉语介词短语的自动识别[J].中文信息学报,2005,19(4):17-23. 被引量：14
3余正涛,樊孝忠.基于最大熵模型的汉语问句语义组块分析[J].计算机工程,2005,31(17):3-5. 被引量：5
4余正涛,樊孝忠,郭剑毅.基于支持向量机的汉语问句分类[J].华南理工大学学报（自然科学版）,2005,33(9):25-29. 被引量：20
5冯冲,陈肇雄,黄河燕,王江伟.最大熵模型的树-栅格最优N解码算法[J].计算机科学,2005,32(10):167-169. 被引量：1
6李跃进,赵晶,林鸿飞.基于Internet的军事演习信息抽取系统[J].计算机工程与应用,2006,42(14):214-218. 被引量：6
7刘贵全,曾宇斌.基于最大熵模型的汉语依存分析[J].计算机工程,2006,32(11):216-218. 被引量：2
8林煜明,李优.基于SVM的句子组块识别[J].山东大学学报（理学版）,2006,41(3):33-36.
9吕琳,刘玉树.最大熵和Brill方法结合识别英语BaseNPs[J].北京理工大学学报,2006,26(6):500-503. 被引量：6
10吕德新,张桂平,蔡东风,余超.基于语义信息的问题分类[J].沈阳航空工业学院学报,2006,23(3):38-40. 被引量：1

同被引文献101

1周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
2冯志伟.特思尼耶尔的从属关系语法[J].当代语言学,1983(1):63-65. 被引量：48
3程葳,赵军,刘非凡,徐波.面向口语翻译的双语语块自动识别[J].计算机学报,2004,27(8):1016-1020. 被引量：3
4孙宏林,俞士汶.浅层句法分析方法概述[J].当代语言学,2000,2(2):74-83. 被引量：38
5刘世岳,李珩,张俐,姚天顺.Co-training机器学习方法在中文组块识别中的应用[J].中文信息学报,2005,19(3):73-79. 被引量：8
6王立霞,孙宏林.现代汉语介词短语边界识别研究[J].中文信息学报,2005,19(3):80-86. 被引量：11
7李珩,朱靖波,姚天顺.基于Stacking算法的组合分类器及其应用于中文组块分析[J].计算机研究与发展,2005,42(5):844-848. 被引量：18
8江荻,胡鸿雁.现代藏语形容词谓语的构造及识别方法(英文)[J].语言研究,2005,25(2):115-122. 被引量：3
9余正涛,樊孝忠.基于最大熵模型的汉语问句语义组块分析[J].计算机工程,2005,31(17):3-5. 被引量：5
10由丽萍,范开泰,刘开瑛.汉语语义分析模型研究述评[J].中文信息学报,2005,19(6):57-63. 被引量：22

引证文献7

1孙广路,郎非,薛一波.基于条件随机域和语义类的中文组块分析方法[J].哈尔滨工业大学学报,2011,43(7):135-139. 被引量：5
2周俏丽,刘新,郎文静,蔡东风.基于分治策略的组块分析[J].中文信息学报,2012,26(5):120-128. 被引量：6
3雷霖,熊伟,景宁,肖建夫.一种基于流形距离的中文语块聚类分析方法[J].北京大学学报（自然科学版）,2013,49(1):126-132. 被引量：2
4李业刚,黄河燕.汉语组块分析研究综述[J].中文信息学报,2013,27(3):1-8. 被引量：12
5李琳,龙从军,江荻.藏语句法功能组块的边界识别[J].中文信息学报,2013,27(6):165-168. 被引量：10
6魏楚元,湛强,樊孝忠,毛煜,张大奎.融合事件信息的中文问答系统问题语义表征[J].中文信息学报,2015,29(1):146-154. 被引量：2
7仵永栩,吕学强,周强,关晓炟.汉语概念复合块的自动分析[J].中文信息学报,2016,30(2):1-11. 被引量：1

二级引证文献34

1李业刚,黄河燕.汉语组块分析研究综述[J].中文信息学报,2013,27(3):1-8. 被引量：12
2李琳,龙从军,江荻.藏语句法功能组块的边界识别[J].中文信息学报,2013,27(6):165-168. 被引量：10
3马建军,宗敏.功能小句自动句法分析结果的错误分析[J].鸡西大学学报（综合版）,2014,14(9):124-127.
4王天航,史树敏,龙从军,黄河燕,李琳.基于错误驱动学习策略的藏语句法功能组块边界识别[J].中文信息学报,2014,28(5):170-175. 被引量：7
5龙从军,康才畯,李琳,江荻.基于多策略的藏语语义角色标注研究[J].中文信息学报,2014,28(5):176-181. 被引量：3
6姜亚辉,姬东鸿.结合半监督与主动学习的复杂名词短语识别[J].计算机工程与设计,2015,36(2):498-501. 被引量：1
7俞敬松,王惠临,吴胜兰.高正确率的双语语块对齐算法研究[J].中文信息学报,2015,29(1):67-74. 被引量：5
8魏楚元,湛强,樊孝忠,毛煜,张大奎.融合事件信息的中文问答系统问题语义表征[J].中文信息学报,2015,29(1):146-154. 被引量：2
9李业刚,黄河燕,鉴萍.引入混合特征的最大名词短语双向标注融合算法[J].自动化学报,2015,41(7):1274-1282. 被引量：4
10杜思奇,李红莲,吕学强.汉语组块分析在产品特征提取中的应用研究[J].现代图书情报技术,2015(9):26-30. 被引量：4

1刘芳,赵铁军,于浩,杨沐昀,方高林.基于统计的汉语组块分析[J].中文信息学报,2000,14(6):28-32. 被引量：27
2舒鑫柱,杨尔弘.基于HOWNET的汉语组块分析[J].河南职业技术师范学院学报,2001,29(4):59-61. 被引量：1
3李素建,刘群,白硕.统计和规则相结合的汉语组块分析[J].计算机研究与发展,2002,39(4):385-391. 被引量：21
4李业刚,黄河燕.汉语组块分析研究综述[J].中文信息学报,2013,27(3):1-8. 被引量：12
5杜思奇,李红莲,吕学强.汉语组块分析在情感分类中的应用研究[J].计算机应用与软件,2016,33(10):167-171.
6刘振丙.基于尺度化凸壳的代价敏感学习[J].桂林电子科技大学学报,2010,30(5):469-473. 被引量：2
7周俏丽,刘新,郎文静,蔡东风.基于分治策略的组块分析[J].中文信息学报,2012,26(5):120-128. 被引量：6
8石洪波,柳亚琴,李爱军.贝叶斯分类器的判别式参数学习[J].计算机应用,2011,31(4):1074-1078. 被引量：6
9肖小亭,李志刚.AutoCAD中尺寸标注功能增强的方法[J].计算机应用,1995,15(2):32-34.
10宋静.支持向量机的应用研究[J].电脑知识与技术,2012,8(11X):8060-8062. 被引量：2

软件学报

2009年第4期

浏览历史

内容加载中请稍等...

基于大间隔方法的汉语组块分析被引量：7

参考文献2

二级参考文献15

共引文献90

同被引文献101

引证文献7

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于大间隔方法的汉语组块分析 被引量：7

参考文献2

二级参考文献15

共引文献90

同被引文献101

引证文献7

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于大间隔方法的汉语组块分析被引量：7