向上学习方法改进移进-归约中文句法分析被引量：2

Improving Shift-Reduce Chinese Parsing with an Uptraining Approach

下载PDF

导出

摘要基于移进-归约的句法分析系统具有线性的时间复杂度,因此在大规模句法分析任务中具有特别实际的意义。然而目前移进-归约句法分析系统的性能远低于领域内最好的句法分析器,例如,伯克利句法分析器。该文研究如何利用向上学习和无标注数据改进移进-归约句法分析系统,使之尽可能接近伯克利句法分析器的性能。我们首先应用伯克利句法分析器对大规模的无标注数据进行自动分析,然后利用得到的自动标注数据作为额外的训练数据改进词性标注系统和移进-归约句法分析器。实验结果表明,向上学习方法和无标注数据使移进-归约句法分析的性能提高了2.3%,达到82.4%。这个性能与伯克利句法分析器的性能可比。与此同时,该文最终得到的句法分析系统拥有明显的速度优势(7倍速度于伯克利句法分析器)。 In practical applications such as parsing the Web, the shift-reduce parser is often preferred due to its linear time complexity. To be further comparable to the state-of-the-art parsers publicly available, this paper adopts the uptraining approach to improve the performance of the shift-reduce parser. The basic idea of uptraining is to apply a high-accuracy parser （such as the Berkeley parser used in this paper） to automatically analyze unlabeled data and then the new labeled data is applied as additional training data to build a POS tagger and the shift-reduce parser. Ex- perimental results on Penn Chinese Treebank show that the approach can improve the shift-reduce parsing to 82.4% （with an absolute improvement of 2.3%）, which is comparable to the Berkley parser on the same data and outperforms other state-of-the-art parsers.

作者朱慕华王会珍朱靖波

机构地区东北大学自然语言处理实验室

出处《中文信息学报》 CSCD 北大核心 2015年第2期33-39,共7页 Journal of Chinese Information Processing

基金国家自然科学基金(61073140 61100089) 中央高校基本科研业务费专项资金(N110404012) 高等学校博士学科点专项科研基金(20100042110031)

关键词中文句法分析移进-归约分析伯克利句法分析器向上学习无标注数据 Chinese syntactic parsing shift-reduce parsing Berkeley parser uptraining unlabeled data

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献18

1Slav P,Dan K. Improved inference for unlexicalizedparsing[C]//Proceedings of Huamn Language Tech-nology Conference of the North American Chapter ofthe Association of Computational Linguistics,2007 :404-411.
2Michael C, Head-driven statistical models for naturallanguage parsing [D]. Ph. D. Thesis. University ofPennsylvania, 1999.
3Eugune C. Maximum-entropy-inspired parser [ C]//Proceedings of the 1st Meeting of the North AmericanChapter of the Association for Computational Linguis-tics, 2QOO: 132-139.
4何亮,戴新宇,周俊生,陈家骏.中心词驱动的汉语统计句法分析模型的改进[J].中文信息学报,2008,22(4):3-9. 被引量：3
5冀铁亮,穗志方.词汇化句法分析与子语类框架获取的互动方法[J].中文信息学报,2007,21(1):120-126. 被引量：3
6Kenji S,Alon L. A classifier-based parser with linearrun-time complexity[C]//Proceedings of the 9th Inter-national Workshop on Parsing Technologies* 2005 :125-132.
7Zhang Y,Stephen C. Transition-based parsing of theChinese Treebank using a global discriminative model[C]//Proceedings of the 11th International Workshopon Parsing Technologies,. 2009 : 162171.
8马骥,朱慕华,肖桐,朱靖波.面向移进—归约句法分析器的单模型系统整合算法[J].中文信息学报,2012,26(3):9-15. 被引量：5
9Jun H, Takuya M, Yusuke M,et al. Incrementaljoint POS tagging and dependency parsing in Chinese[C]//Proceedings of the 5th International Joint Con-ference on Natural Language Processing,2011 : 1216-1224.
10Slav P, Pi-Chuan Chang, Michael R, Hiyan A. Up-training for accurate deterministic question parsing[C]//Proceedings of the 2010 Conference on Empiri-cal Methods in Natural Language Processing, 2010:705-713.

二级参考文献43

1Yoav Freund,Robert Schapire.BoosTexter:ABoosting-based for Text Categorization[C] Proceedingsof Machine Learning.2000.39:135-168.
2Andrew Borthwick,John Sterling,Eugene Agichtein,et al.Exploiting Diverse Knowledge Sources viaMaximum Entropy in Named Entity Recognition[C] //Proceedings of the Six Workshop on Very LargeCorpora,1998:152-160.
3Evgeny Matusov,Nicola Ueffing,Hermann Ney.Computing consensus translation from multiplemachine translation systems using enhancedhypotheses alignment[C] //Proceedings of EACL2006:33-40.
4Tong Xiao,Jingbo Zhu,Muhua Zhu,et al.AdaBoost-based System Combination for Machine Translation[C] //Proceedings of ACL 2010:739-748.
5John Henderson,Eric Brill.Exploiting diversity innatural language processing:combining parsers[C] //Proceedings of EMNLP 1999:187-194.
6Kenji Sagae,Alon Lavie.Parser combination byreparsing[C] //Proceedings of HLT-NAACL 2006:129-132.
7Yoav Freund,Robert Schapire.A decision theoreticgeneralization of on-line learning and an application toboosing[J].Journal of Computer and SystemSciences,1997,55(1):119-139.
8John Henderson,Eric Brill.Bagging and Boosting aTreebank Parser[C] //Proceedings of ANLP 2000:34-41.
9Michael Collins.Three generative,lexicalised modelsfor statistical parsing[C] //Proceedings of ACL 1997:16-23.
10Kenji Sagae,Alon Lavie.A Classifier-based Parserwith Linear Run-Time Complexity[C] //Proceedingsof IWPT 2005.

共引文献8

1唐四薪,周勇,邹赛.基于词汇化随机文法模型的RNA二级结构预测[J].计算机工程与科学,2009,31(3):128-131. 被引量：4
2陈功,罗森林,陈开江,冯扬,潘丽敏.结合结构下文及词汇信息的汉语句法分析方法[J].中文信息学报,2012,26(1):9-15. 被引量：6
3袁里驰.基于统计的句法分析方法[J].中南大学学报（自然科学版）,2014,45(8):2669-2675. 被引量：6
4乌兰,达胡白乙拉,关晓炟,周强.蒙古语短语结构树的自动识别[J].中文信息学报,2014,28(5):162-169. 被引量：7
5陈雪,古丽拉.阿东别克.哈萨克语句法分析辅助特征提取研究[J].中文信息学报,2018,32(8):75-79.
6项炜,金澎.大规模语料库上的Stanford和Berkeley句法分析器性能对比分析[J].电脑知识与技术（过刊）,2013,19(3X):1984-1986. 被引量：3
7关玉欣.语法分析中基于集合冲突的ε-NFA的构造及其分析策略[J].内蒙古工业大学学报（自然科学版）,2020,39(1):45-51.
8皮乾东,邵玉斌,龙华,杨陈菊.改进LR算法的汉语层次化句法分析器设计[J].控制工程,2021,28(12):2318-2322.

同被引文献5

1周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
2曹海龙,赵铁军,李生.基于词汇化模型的汉语句法分析[J].电子与信息学报,2007,29(9):2082-2085. 被引量：2
3吴伟成,周俊生,曲维光.基于统计学习模型的句法分析方法综述[J].中文信息学报,2013,27(3):9-19. 被引量：21
4王磊,曾诚,奚雪峰,皮洲,顾建伟,卓文婕,陈帅天.基于Spark的海量文本评论情感分析[J].苏州科技大学学报（自然科学版）,2018,35(1):71-75. 被引量：4
5谷波,王瑞波,李济洪,李国臣.基于RNN的中文二分结构句法分析[J].中文信息学报,2019,33(1):35-45. 被引量：15

引证文献2

1杨颢,徐清,邵帮丽,奚雪峰,付保川.一种基于端到端模型的中文句法分析方法[J].苏州科技大学学报（自然科学版）,2021,38(2):77-84. 被引量：2
2谷波,王瑞波,李济洪,李国臣.基于RNN的中文二分结构句法分析[J].中文信息学报,2019,33(1):35-45. 被引量：15

二级引证文献17

1刘作国,陈笑蓉.汉语句法分析中的论元关系模型研究[J].南京大学学报（自然科学版）,2019,55(6):1010-1019. 被引量：1
2皮乾东,邵玉斌,龙华,杜庆治,杨陈菊.汉语语句算式化融合句法分析[J].电子测量技术,2020,43(6):123-127. 被引量：3
3杨陈菊,孙俊,皮乾东,邵玉斌,龙华.基于CRF和多元规则的层次化句法分析[J].吉林大学学报（理学版）,2020,58(6):1452-1460. 被引量：2
4侯运瑶,曹学飞,崔军,王瑞波,李济洪,李茹.基于框架表示学习的汉语框架排歧[J].计算机应用研究,2020,37(12):3640-3644. 被引量：2
5杨颢,徐清,邵帮丽,奚雪峰,付保川.一种基于端到端模型的中文句法分析方法[J].苏州科技大学学报（自然科学版）,2021,38(2):77-84. 被引量：2
6张海玲,邵玉斌,贾继康,龙华,杜庆治.基于二元与三元模型相结合的句法规则层次化分析算法[J].计算机工程与科学,2021,43(7):1316-1323. 被引量：1
7余俊,于文年,彭艳兵.基于ELMo-BiLSTM-CRF模型的中文地址分词[J].电子设计工程,2021,29(20):72-76. 被引量：4
8杨璐,樊同科.基于递归神经网络的英译汉机器翻译模型设计与实现[J].计算机测量与控制,2021,29(11):142-147. 被引量：11
9皮乾东,邵玉斌,龙华,杨陈菊.改进LR算法的汉语层次化句法分析器设计[J].控制工程,2021,28(12):2318-2322.
10卓玛扎西,才让加,色差甲,班玛宝.基于组块分割的无监督藏文句法分析方法研究[J].计算机仿真,2022,39(5):278-282.

1闵莉,齐浩亮,韩咏.线图算法在中文句法分析中的应用[J].科技咨询导报,2007(11):22-23. 被引量：1
2栾浩,黄昌宁.句法分析系统的知识表示和控制机制[J].中文信息,1994,11(4):31-34. 被引量：1
3王文剑,王亚贝.基于结构化支持向量机的中文句法分析[J].山西大学学报（自然科学版）,2011,34(1):66-70. 被引量：2
4张卫.词性标注系统的设计与实现[J].情报杂志,2008,27(11):81-82. 被引量：1
5王仲华,卢娇丽.基于HMSVM模型的动词+名词关系研究[J].电脑开发与应用,2013,26(5):12-14.
6耿向好,李军辉,周国栋,朱巧明.一种基于历史信息的多层次中文句法分析方法[J].计算机应用与软件,2009,26(6):45-47. 被引量：4
7李亚超,江静,加羊吉,于洪志.TIP-LAS：一个开源的藏文分词词性标注系统[J].中文信息学报,2015,29(6):203-207. 被引量：27
8赵国荣,王文剑.一种处理结构化输入输出的中文句法分析方法[J].中文信息学报,2015,29(1):139-145. 被引量：4
9周金龙,邱锡鹏.基于启发式搜索与预标注的中文CCG句法分析[J].计算机应用与软件,2014,31(9):231-235.
10甘新玲,鲁明羽,唐焕玲,李永.面向循证医学网络文献的SVM分类方法[J].广西师范大学学报（自然科学版）,2008,26(3):214-217. 被引量：2

中文信息学报

2015年第2期

浏览历史

内容加载中请稍等...

向上学习方法改进移进-归约中文句法分析被引量：2

参考文献18

二级参考文献43

共引文献8

同被引文献5

引证文献2

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

向上学习方法改进移进-归约中文句法分析 被引量：2

参考文献18

二级参考文献43

共引文献8

同被引文献5

引证文献2

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

向上学习方法改进移进-归约中文句法分析被引量：2