-
题名基于强化学习的对抗预训练语言建模方法
- 1
-
-
作者
颜俊琦
孙水发
吴义熔
裴伟
董方敏
-
机构
三峡大学智慧医疗宜昌市重点实验室
三峡大学计算机与信息学院
-
出处
《中文信息学报》
CSCD
北大核心
2022年第4期20-28,共9页
-
基金
国家自然科学基金(U1703261)
国家社会科学基金(20BTQ066)。
-
文摘
在大规模无监督语料上的BERT、XLNet等预训练语言模型,通常采用基于交叉熵损失函数的语言建模任务进行训练。模型的评价标准则采用困惑度或者模型在其他下游自然语言处理任务中的性能指标,存在损失函数和评测指标不匹配等问题。为解决这些问题,该文提出一种结合强化学习的对抗预训练语言模型RL-XLNet(Reinforcement Learning-XLNet)。RL-XLNet采用对抗训练方式训练一个生成器,基于上下文预测选定词,并训练一个判别器判断生成器预测的词是否正确。通过对抗网络生成器和判别器的相互促进作用,强化生成器对语义的理解,提高模型的学习能力。由于在文本生成过程中存在采样过程,导致最终的损失无法直接进行回传,故提出采用强化学习的方式对生成器进行训练。基于通用语言理解评估基准(GLUE Benchmark)和斯坦福问答任务(SQuAD 1.1)的实验,结果表明,与现有BERT、XLNet方法相比,RL-XLNet模型在多项任务中的性能上表现出较明显的优势:在GLUE的六个任务中排名第1,一个任务排名第2,一个任务排名第3。在SQuAD 1.1任务中F 1值排名第1。考虑到运算资源有限,基于小语料集的模型性能也达到了领域先进水平。
-
关键词
自然语言处理
预训练
语言模型
强化学习
-
Keywords
natural language processing
pre-training
language model
reinforcement learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-