基于对抗训练策略的语言模型数据增强技术被引量：19

Data Augmentation for Language Models via Adversarial Training

下载PDF

导出

摘要基于最大似然估计(Maximum likelihood estimation,MLE)的语言模型(Language model,LM)数据增强方法由于存在暴露偏差问题而无法生成具有长时语义信息的采样数据.本文提出了一种基于对抗训练策略的语言模型数据增强的方法,通过一个辅助的卷积神经网络判别模型判断生成数据的真伪,从而引导递归神经网络生成模型学习真实数据的分布.语言模型的数据增强问题实质上是离散序列的生成问题.当生成模型的输出为离散值时,来自判别模型的误差无法通过反向传播算法回传到生成模型.为了解决此问题,本文将离散序列生成问题表示为强化学习问题,利用判别模型的输出作为奖励对生成模型进行优化,此外,由于判别模型只能对完整的生成序列进行评价,本文采用蒙特卡洛搜索算法对生成序列的中间状态进行评价.语音识别多候选重估实验表明,在有限文本数据条件下,随着训练数据量的增加,本文提出的方法可以进一步降低识别字错误率(Character error rate,CER),且始终优于基于MLE的数据增强方法.当训练数据达到6 M词规模时,本文提出的方法使THCHS 30数据集的CER相对基线系统下降5.0%,AISHELL数据集的CER相对下降7.1%. The conventional approach to data augmentation for language models based on maximum likelihood estimation（MLE） causes the exposure bias problem, which leads to generated text lacking of long-term semantics. We propose a novel data augmentation approach via adversarial training, which uses a convolutional neural network as a discriminator to guide the training of a recurrent neural network based generative model. The matter of augmentation for language models can be regarded as discrete sequential data generation. When outputs of the generative model are discrete, backforward propagation algorithm fails to update the generative model via the gradient of discriminator errors. To deal with this problem, we treat the generative model as a stochastic policy in reinforcement learning and optimize it by rewards from the discriminator. Since the discriminator can only judge completed sequences, we evaluate intermediate states by Monte Carlo search. Experiments on rescoring the n-best lists of speech recognition outputs show that with the increase of training corpus, the proposed approach achieves a lower character error rate（CER） and always outperforms the MLE-based approach. When training corpus reaches 6 million tokens, the proposed approach provides a relative 5.0 % CER reduction on THCHS 30 dataset and a relative 7.1 % CER reduction on AISHELL dataset compared with the baseline.

作者张一珂张鹏远颜永红 ZHANG Yi-Ke;ZHANG Peng-Yuan;YAN Yong-Hong(Key Laboratory of Speech Acoustics and Content Under standing, Institute of Acoustics, Chinese Academy of Sciences, Beijing 100190;University of Chinese Academy of Sciences, Beijing 100049;Xinjiang Laboratory of Minority Speech and Language Information Processing, Xinjiang Technical Insti- tute of Physics and Chemistry, Chinese Academy of Sciences, Urumchi 830011)

机构地区中国科学院声学研究所语言声学与内容理解重点实验室中国科学院大学中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室

出处《自动化学报》 EI CSCD 北大核心 2018年第5期891-900,共10页 Acta Automatica Sinica

基金国家自然科学基金(11590770-4 U1536117 11504406 11461141004) 国家重点研发计划(2016YFB0801203 2016YFB0801200) 新疆维吾尔自治区科技重大专项(2016A03007-1)资助~~

关键词数据增强语言模型生成对抗网络强化学习语音识别 Data augmentation language modeling generative adversarial nets （GAN） reinforcement learning speechrecognition

分类号 TN912.34 [电子电信—通信与信息系统] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1司玉景,肖业鸣,徐及,潘接林,颜永红.面向口语统计语言模型建模的自动语料生成算法[J].自动化学报,2014,40(12):2808-2814. 被引量：1
2王坤峰,苟超,段艳杰,林懿伦,郑心湖,王飞跃.生成式对抗网络GAN的研究进展与展望[J].自动化学报,2017,43(3):321-332. 被引量：308
3陈兴国,俞扬.强化学习及其在电脑围棋中的应用[J].自动化学报,2016,42(5):685-695. 被引量：32

二级参考文献26

1王飞跃.平行系统方法与复杂系统的管理和控制[J].控制与决策,2004,19(5):485-489. 被引量：317
2王飞跃.计算实验方法与复杂系统行为分析和决策评估[J].系统仿真学报,2004,16(5):893-897. 被引量：147
3王飞跃.关于复杂系统的建模、分析、控制和管理[J].复杂系统与复杂性科学,2006,3(2):26-34. 被引量：63
4杨行竣迟惠生.语音信号数字处理[M].北京：电子工业出版社,1995..
5Chen S F, Goodman J. An empirical study of smoothing techniques for language modeling. In: Proceedings of the 34th Annual Meeting on Association for Computational Lin- guistics. Association for Computational Linguistics. Santa Cruz, CA, 1996. 310-318.
6Allauzen C, Riley M. Bayesian language model interpola- tion for mobile speech input. In: Proceedings of the 2011 Interspeech. Italy, 2011. 1429-1432.
7Khudanpur S, Wu J. A maximum entropy language model integrating n-grams and topic dependencies for conversa- tional speech recognition. In: Proceedings of the 1999 IEEE International Conference on Acoustics, Speech, and Signal Processing. Phoenix, AZ: IEEE, 1999. 553-556.
8Schwenk H. CSLM - a modular open-source continuous space language modeling toolkit. In: Proceedings of the 2013 Interspeech. Lyyon, France, 2013. 1198-1202.
9Mikolov T, Karafit M, Burget L, Cernock J H, Khudanpur S. Recurrent neural network based language model. In: Pro- ceedings of the 2010 INTERSPEECH. Lyon, France: ISCA, 2010. 1045-1048.
10Mikolov T, Deoras A, Kombrink S, Burget L, Cernocky J H. Empirical evaluation and combination of advanced lan- guage modeling techniques. In: Proceedings of the 2011 In- terspeech. Italy, 2011. 605-608.

共引文献338

1熊伟,高娟娟,刘锴.基于GAN模型优化的神经机器翻译[J].计算机系统应用,2022,31(12):95-103. 被引量：1
2宁宁,金鑫,张晓昆,李艳楠.基于GAN的人脸图像光照迁移[J].北京电子科技学院学报,2019(4):33-41.
3于德山.人工智能时代的视觉真相及其反思[J].社会科学战线,2020(1):224-233. 被引量：3
4李可,祁阳,宿磊,顾杰斐,苏文胜.基于改进ACGAN的钢表面缺陷视觉检测方法[J].机械工程学报,2022,58(24):32-40. 被引量：2
5支双双,赵庆会,金大海,唐琎.基于CNN和DLTL的步态虚拟样本生成方法[J].计算机应用研究,2020,37(1):291-295. 被引量：1
6吴雅琴,陈林,侯云峰.基于CNN-GAN的信道状态信息室内定位算法[J].电子测量技术,2023,46(24):119-126.
7王可新,王力.基于生成对抗网络的图像修复算法[J].智能计算机与应用,2020(4):9-12.
8胡祥仁,陆林,王云生,商军,王保文,黄礼法.急性鱼胆中毒86例临床分析[J].中华内科杂志,2000,39(4):273-274. 被引量：86
9张强,杨任农,俞利新,张涛,左家亮.基于Q-network强化学习的超视距空战机动决策[J].空军工程大学学报（自然科学版）,2018,19(6):8-14. 被引量：18
10王守相,陈海文,潘志新,王建明.采用改进生成式对抗网络的电力系统量测缺失数据重建方法[J].中国电机工程学报,2019,39(1):56-64. 被引量：81

同被引文献208

1李响,李国正,邓明君,万平,严利鑫.基于语音频谱图像特征的人体疲劳检测方法[J].仪器仪表学报,2021,42(2):123-132. 被引量：12
2李牧南,王良,赖华鹏.中文科技政策文本分类:增强的TextCNN视角[J].科技管理研究,2023,43(2):160-166. 被引量：3
3徐冬冬,蒋志翔.基于深度优化残差卷积神经网络的端到端语音识别[J].计算机应用研究,2020,37(S02):139-141. 被引量：6
4刘志颖,缪希仁,陈静,江灏.电力架空线路巡检可见光图像智能处理研究综述[J].电网技术,2020,44(3):1057-1069. 被引量：83
5张骥,张红梅,邵华,郑紫尧,李亮玉.基于全景数字仿真的变电站一键顺控测试技术[J].高电压技术,2023,49(S01):128-134. 被引量：1
6王超.深度学习在行业指数技术分析中的应用研究[J].管理评论,2021,33(3):75-83. 被引量：2
7康重庆,夏清,张伯明.电力系统负荷预测研究综述与发展方向的探讨[J].电力系统自动化,2004,28(17):1-11. 被引量：494
8薛禹胜,刘觉,岑文辉.专家系统在电力系统中的应用——特点,现状和展望[J].电力系统自动化,1989,13(2):10-19. 被引量：12
9杨丽徙,王金风,陈根永,王家耀.基于元胞自动机理论的电力负荷空间分布预测[J].中国电机工程学报,2007,27(4):15-20. 被引量：27
10周湶,李健,孙才新,周永勇,伏进,代姚.基于粗糙集和元胞自动机的配电网空间负荷预测[J].中国电机工程学报,2008,28(25):68-73. 被引量：36

引证文献19

1聂凯,栾瑞鹏.基于数据增强的仿真模型验证方法[J].指挥控制与仿真,2019,41(3):92-96. 被引量：2
2宋春丽.基于LabVIEW系统的语言增强去噪仿真设计[J].宁夏师范学院学报,2019,40(7):79-83. 被引量：1
3李文慧,张英俊,潘理虎.改进biLSTM网络的短文本分类方法[J].计算机工程与设计,2020,41(3):880-886. 被引量：8
4刘彬,李德健,赵志彪,武尤.改进的快速跟踪回声状态网络及PM2.5预测[J].计量学报,2020,41(9):1138-1145. 被引量：2
5张开生,赵小芬.双重约束非负矩阵分解与改进正交匹配追踪算法的语音增强[J].河南科技大学学报（自然科学版）,2021,42(1):54-60. 被引量：4
6叶楠,寇丽杰.多语言机器人深度学习模型构建[J].信息与控制,2020,49(6):680-687. 被引量：6
7肖白,黄钰茹,姜卓,施永刚,焦明曦,王徭.数据匮乏场景下采用生成对抗网络的空间负荷预测方法[J].中国电机工程学报,2020,40(24):7990-8001. 被引量：29
8尤丛丛,高盛祥,余正涛,毛存礼,潘润海.基于同义词数据增强的汉越神经机器翻译方法[J].计算机工程与科学,2021,43(8):1497-1502. 被引量：8
9吴晓光,刘绍维,杨磊,邓文强,贾哲恒.基于深度强化学习的双足机器人斜坡步态控制方法[J].自动化学报,2021,47(8):1976-1987. 被引量：25
10罗孝波,林佳瑜,梁祖红,王漳.针对低频词进行改进的中文短文本分类方法[J].计算机应用研究,2022,39(2):468-473. 被引量：2

二级引证文献105

1张宇昂,贾云鹏,刘家鹏.一种多特征融合的长文本分类方法[J].中国电子科学研究院学报,2020,15(9):910-916. 被引量：5
2戴晶.基于深度学习的不良信息治理新技术研究[J].电信工程技术与标准化,2020,33(11):75-81. 被引量：3
3刘牮,李佳伟.基于深度卷积生成对抗网络的电力负荷数据生成[J].软件导刊,2021,20(2):54-58. 被引量：2
4田相轩,李军旗,金丽亚,刘正仁,石志强.基于相关性分析的指挥信息系统模拟数据集可用性评估算法[J].兵工学报,2021,42(2):399-407. 被引量：1
5柳秀山,张琴,程骏,蔡君.仿生双足机器人步态轨迹自适应控制方法研究[J].计算机仿真,2021,38(3):298-302. 被引量：3
6刘佳琪,张国城,赵晓宁,吴丹,荆文杰.进气流量对PM_(2.5)切割器捕集效率的影响[J].计量学报,2021,42(4):532-536. 被引量：15
7侯远韶.基于强化学习的腿式机器人运动控制与决策研究[J].科技创新导报,2021,18(3):111-114.
8林珊,王红,齐林海,冯函宇,苏盈.基于条件生成对抗网络的短期负荷预测[J].电力系统自动化,2021,45(11):52-60. 被引量：28
9孙辉辉,胡春鹤,张军国.移动机器人运动规划中的深度强化学习方法[J].控制与决策,2021,36(6):1281-1292. 被引量：25
10肖白,张小娜,姜卓,阚中锋,綦雪松,肖志峰.考虑本位元胞接受能力和相邻元胞负荷影响的空间负荷预测[J].电力系统自动化,2021,45(12):57-64. 被引量：12

1何玉兰,张盼,李丽亚,张丹,刘心颖,路东梅,周自琴,徐瑞敏.测试强化学习教学方法在“3＋2”助理全科医生心肺复苏技能培训中的应用[J].中华医学教育杂志,2018,38(3):337-340. 被引量：6
2韩逸.和吴军博士聊聊如何避免“伪工作” 每天看起来忙忙碌碌，为何一事无成？[J].人物,2018,0(5):24-25.
3张云江.羲寂法师与宋初天台宗往高丽、日本求取教籍事略论[J].五台山研究,2018(2):44-48. 被引量：1
4朱俊生.互联网保险发展转向:从渠道变革、场景创造到科技赋能[J].清华金融评论,2018(5):101-104. 被引量：2
5叶婷.培养小学生“发现问题”能力的策略[J].学苑教育,2018,0(10):24-25.
6乔健,王建明.抑制风噪声的频点离散值加权GCC-PHAT时延估计算法[J].电子技术应用,2018,44(3):72-76. 被引量：2
7吴正江,陈如校,张霄宏.改进Adaboost下BP神经网络并行化训练方法[J].小型微型计算机系统,2018,39(5):1058-1062. 被引量：5
8刘芳,张路楠,刘莹,赵文杰,宋锋.蒙特卡洛自适应法评定测量不确定度的程序设计[J].计量技术,2018(5):64-68. 被引量：4
9周林林,胡晓君,张鲁殷,贾伟光,杨阳,丁祥,张雪飞,杨东东.基于加速区域卷积神经网下的人物身份属性识别方法[J].电子元器件与信息技术,2017,1(4):1-5. 被引量：5
10方柏林.“朋友圈”里的学问[J].发现,2018,0(17):62-63.

自动化学报

2018年第5期

浏览历史

内容加载中请稍等...

基于对抗训练策略的语言模型数据增强技术被引量：19

参考文献3

二级参考文献26

共引文献338

同被引文献208

引证文献19

二级引证文献105

相关作者

相关机构

相关主题

浏览历史

基于对抗训练策略的语言模型数据增强技术 被引量：19

参考文献3

二级参考文献26

共引文献338

同被引文献208

引证文献19

二级引证文献105

相关作者

相关机构

相关主题

浏览历史

基于对抗训练策略的语言模型数据增强技术被引量：19