引入集成学习的最大熵短语调序模型被引量：3

An Ensemble Learning Method for Maximum Entropy Based Phrase Reordering Model

下载PDF

导出

摘要基于最大熵的括号转录语法模型具有翻译能力强、模型训练简单的优点,成为近些年统计机器翻译研究的热点。然而,该模型存在短语调序实例样本分布不平衡的缺点。针对该问题,该文提出了一种引入集成学习的短语调序模型训练方法。在大规模数据集上的实验结果表明,我们的方法能有效改善调序模型的训练效果,显著提高翻译系统性能。 The Maximum Entropy Based BTG model becomes a hot topic in statistical machine translation in recent years due to its strong translation and easy to-train abilities. However, the distribution of reordering examples in this model is imbalanced. To solve this problem, we introduce an ensemble learning method for training phrase reor- dering model. Experimental results show that,the reordering model can reach a better training effect via our method and the performance of the translation system is improved significantly in a large-scale dataset.

作者何钟豪苏劲松史晓东陈毅东黄研洲

机构地区厦门大学智能科学与技术系厦门大学软件学院

出处《中文信息学报》 CSCD 北大核心 2014年第1期87-93,共7页 Journal of Chinese Information Processing

基金国家自然科学基金(61303082 61005052) 国家科技支撑计划(2012BAH14F03) 高等学校博士学科点专项科研基金(20120121120046)

关键词最大熵短语调序不平衡分类集成学习 maximum entropy phrase reordering imbalanced classifier ensemble learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献19

1Dekai Wu. Stochastic Inversion Transduction Gram- mars and Bilingual Parsing of Parallel Corpora[J]. Computational linguistics, 1997,25(6) .. 377-403.
2刘群.基于句法的统计机器翻译模型与方法[J].中文信息学报,2011,25(6):63-71. 被引量：16
3Deyi Xiong,Qun Liu, Shouxun Lin. Maximum Entro- py Based Phrase Reordering Model for Statistical Ma- chine Translation[C]//Proceedings of the 21st Inter- national Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computa tional Linguistics,Sydney, Australia,2006: 521-528.
4Deyi Xiong, Min Zhang, Aiti Aw. A linguistically an- notated reordering model for BTG-based statistical ma- chine translation[C]//Proceedings of the 46th Annual Meeting of the Association for Computational Linguis- tics on Human Language Technologies, Columbus, O- hio,USA,2008: 149 152.
5Min Zhang, Haizhou Li. Tree kernel-based SVM with structured syntactic knowledge for BTG-based phrase reordering[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, Suntec,Singapore,2009 : 698-707.
6Jinsong Su, Yang Liu, Haitao Mi. Dependency-based bracketing transduction grammar for statistical ma- chine translation[C]//Proceedings of the 23rd Interna- tional Conference on Computational Linguistics, Bei- jing,China,2010 : 1185-1193.
7Hanbin Chen,Jiancheng Wu, Jason S Chang. Learning bilingual linguistic reordering model for statistical ma- chine translation[C]//Proceedings of Human Lan- guage Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Boulder Colorado, USA, 2009: 254-262.
8孙萌,姚建民,吕雅娟,姜文斌,刘群.基于最大熵短语重排序模型的特征抽取算法改进[J].中文信息学报,2011,25(2):78-82. 被引量：3
9Shoushan Li, Guodong Zhou, Zhongqing Wang. Im- balanced Sentiment Classification[C]//Proceedings ofthe 20th ACM international conference on information and knowledge management, Glasgow, Scotland, UK, 2011 2469-2472.
10叶志飞,文益民,吕宝粮.不平衡分类问题研究综述[J].智能系统学报,2009,4(2):148-156. 被引量：72

二级参考文献63

1全昌勤,何婷婷,姬东鸿,余绍文.基于多分类器决策的词义消歧方法[J].计算机研究与发展,2006,43(5):933-939. 被引量：8
2Weiss G M. Mining with Rarity:A Unifying Framework[J]. SIGKDD Explorations, 2004,6(1) :7-19.
3Weiss G M. Learning with Rare Cases and Small Disjunets [C]//Proc of the 12th Int'l Conf on Machine Learning, 1995:558-565.
4Japkowicz N, Stephen S. The Class Imbalance Problem: A Systematic Study[J]. Intelligent Data Analysis Journal, 2002,6(5) :429 450.
5Chawla N V, Bowyer K W, Hall I. O, et al. SMOTE: Synthetic Minority Over-Sampling Technique[J]. Journal of Artificial Intelligence Research, 2002,16(6) : 321-357.
6Kubat M, Matwin S. Addressing the Curse of Imbalanced Data Sets:One Sided Sampling[C]//Proc of the 14th Int'l Conf on Machine Learning, 1997:179-186.
7Chawla N, Lazarevic A, Hall L, et al. SMOTEBoost: Improving Prcdiction of the Minority Class in Boosting[C]// Proc of the 7th European Conf on Principles and Practice of Knowledge Discovery in Databases, 2003 : 107-119.
8Fan W, Stofol S, Zhang J X. AdaCost: Misclassification Cost Sensitive Boosting[C]//Proc of the 16th Int'l Conf on Machine Learning, 1999: 97-105.
9Joshi M V, Agarwal R C, Kumar V. Predicting Rare Classes: Can Boosting Make any Weak Learner Strong[C]//Proc of the 8th ACM SIGKDD Int'l Conf on Knowledge Discovery and Data Mining, 2002:297-306.
10Zheng Z H, Srihari R. Optimally Combining Positive and Negative Features for Text Categorization[C]//Proc of the Int'l Conf on Machine Learning, 2003 : 241-245.

共引文献104

1罗丹.一种基于多维高斯云模型的过采样方法[J].周口师范学院学报,2020(2):104-107. 被引量：1
2高子寒,宋燕.基于边界增强和去噪的自适应双权重过采样方法研究[J].智能计算机与应用,2022,12(1):58-64.
3文益民,李健,杜飞明,陈方.集成学习算法在不平衡分类中的应用研究[J].计算技术与自动化,2009,28(2):103-106.
4王成,刘亚峰,王新成,闫桂荣.分类器的分类性能评价指标[J].电子设计工程,2011,19(8):13-15. 被引量：30
5王瑞伟,李志华.离群数据规则挖掘的决策树构造方法[J].计算机工程与设计,2011,32(5):1781-1784.
6方磊,马溪骏.基于信息熵的改进型支持向量机客户流失预测模型应用研究[J].情报学报,2011,30(6):643-648. 被引量：5
7秦姣龙,王蔚.Bagging组合的不平衡数据分类方法[J].计算机工程,2011,37(14):178-179. 被引量：12
8付忠良.多分类问题代价敏感AdaBoost算法[J].自动化学报,2011,37(8):973-983. 被引量：32
9张永,李卓然,刘小丹.基于主动学习SMOTE的非均衡数据分类[J].计算机应用与软件,2012,29(3):91-93. 被引量：23
10李艳玲,郭文普,徐东辉.一种不平衡数据的分类方法[J].中国电子科学研究院学报,2012,7(3):246-251. 被引量：5

同被引文献17

1翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771. 被引量：42
2邓擘,郑彦宁,傅继彬.汉语实体关系模式的自动获取研究[J].计算机科学,2010,37(2):183-185. 被引量：3
3袁鼎荣,钟宁.基于关联规则的交集型歧义消解算法[J].郑州大学学报（理学版）,2010,42(1):67-69. 被引量：3
4宋巍,张宇,刘挺,李生.基于检索历史上下文的个性化查询重构技术研究[J].中文信息学报,2010,24(3):55-61. 被引量：12
5曹杰,吕雅娟,苏劲松,刘群.利用上下文信息的统计机器翻译领域自适应[J].中文信息学报,2010,24(6):50-56. 被引量：4
6冯洋,张冬冬,刘群.层次短语翻译模型的介词短语调序[J].中文信息学报,2012,26(1):31-36. 被引量：3
7肖欣延,刘洋,刘群,林守勋.面向层次短语翻译的词汇化调序方法研究[J].中文信息学报,2012,26(1):37-41. 被引量：6
8刘丹丹,彭成,钱龙华,周国栋.词汇语义信息对中文实体关系抽取影响的比较[J].计算机应用,2012,32(8):2238-2244. 被引量：11
9庞弘燊,方曙,杨志刚,郭学武.研究领域的主题发展趋势分析方法研究——基于多重共现的视角[J].情报理论与实践,2012,35(8):44-47. 被引量：11
10曹雷,郭嘉丰,白露,程学旗.基于半监督话题模型的用户查询日志命名实体挖掘[J].中文信息学报,2012,26(5):26-32. 被引量：6

引证文献3

1熊明明,刘艳超,郭剑毅,余正涛,周兰江,陈秀琴.基于最大熵模型的越南语交叉歧义消解[J].中文信息学报,2017,31(4):63-69. 被引量：1
2刘梦眙,姚亮,洪宇,刘昊,姚建民.译文语序的领域性思考:一种融合主题信息的领域自适应调序模型[J].中文信息学报,2017,31(5):50-58.
3刘作国,陈笑蓉.面向文本聚类的实体—动作关联模型研究[J].中文信息学报,2018,32(5):22-30. 被引量：3

二级引证文献4

1周洪宾.基于词汇树检索的图书馆书目智能查询系统设计[J].现代电子技术,2019,42(24):180-182.
2马刚,李红云.文本差异性分析与建模[J].电脑编程技巧与维护,2021(2):3-5.
3徐海燕,姜瑛.针对复杂用户评论的代码质量属性判断[J].软件学报,2021,32(7):2183-2203. 被引量：2
4李蓉,周美丽.基于人工智能处理器设计的机器自动翻译系统设计[J].现代电子技术,2022,45(2):183-186. 被引量：8

1文益民,李健,杜飞明,陈方.集成学习算法在不平衡分类中的应用研究[J].计算技术与自动化,2009,28(2):103-106.
2郭丽娟,倪子伟,江弋,邹权.集成降采样不平衡数据分类方法研究[J].计算机科学与探索,2013,7(7):630-638. 被引量：3
3张伶卫,万文强.基于云计算平台的代价敏感集成学习算法研究[J].山东大学学报（工学版）,2012,42(4):19-23. 被引量：3
4晁拴社,楚恒,王兴.高光谱图像数据的多尺度多核SVM分类[J].计算机与现代化,2016(2):11-14. 被引量：5
5杨明,杨萍.一种面向不平衡分类数据的核求解算法[J].控制与决策,2007,22(6):652-656.
6刘忠宝,任娟娟,孔啸.利用基于互信息的不平衡分类方法识别稀有光谱（英文）[J].光谱学与光谱分析,2016,36(11):3746-3751.
7晁拴社,楚恒.基于稀疏MK-LSSVM的高光谱图像不平衡分类[J].城市勘测,2016(2):69-73. 被引量：2
8孙玉,刘贵全,汪中.基于不平衡分类的人脸检测系统[J].计算机应用与软件,2012,29(12):24-26. 被引量：3
9王中卿,李寿山,朱巧明,李培峰,周国栋.基于不平衡数据的中文情感分类[J].中文信息学报,2012,26(3):33-37. 被引量：11
10吴悠,高静怡.数据挖掘中的不平衡分类问题集分析[J].电子制作,2014,22(10X):139-139.

中文信息学报

2014年第1期

浏览历史

内容加载中请稍等...

引入集成学习的最大熵短语调序模型被引量：3

参考文献19

二级参考文献63

共引文献104

同被引文献17

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

引入集成学习的最大熵短语调序模型 被引量：3

参考文献19

二级参考文献63

共引文献104

同被引文献17

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

引入集成学习的最大熵短语调序模型被引量：3