在基于Transformer的语言模型中自注意力网络扮演了重要的角色,其中的全连接结构能够以并行方式捕捉序列中非连续的依赖关系。但是,全连接的自注意力网络很容易过拟合到虚假关联信息上,比如词与词、词与预测目标之间的虚假关联。这种过...在基于Transformer的语言模型中自注意力网络扮演了重要的角色,其中的全连接结构能够以并行方式捕捉序列中非连续的依赖关系。但是,全连接的自注意力网络很容易过拟合到虚假关联信息上,比如词与词、词与预测目标之间的虚假关联。这种过拟合问题限制了语言模型对领域外或分布外数据的泛化能力。为了提高Transformer语言模型对虚假关联的鲁棒性以及泛化能力,提出掩码语言增强表示的对比学习微调框架(fine-tuning framework via mask language model enhanced representations based contrastive learning,MCL-FT)。具体而言,文本序列和其随机掩码后的序列送入到一个孪生网络,结合对比学习目标和下游任务目标对模型进行参数学习。其中,每一个孪生网络由预训练语言模型和任务分类器组成。所以,该微调框架更加符合掩码语言模型预训练学习方式,能够在下游任务中保持预训练知识的泛化能力。在MNLI、FEVER和QQP数据集以及它们的挑战数据集上与最新的基线模型进行了对比,包括大语言模型ChatGPT、GPT4、LLaMA,实验结果验证了提出模型在保证分布内性能的同时有效提高了分布外的性能。在ATIS和Snips数据集上的实验结果证明,该模型在常见自然语言处理任务中也有显著的效果。展开更多
文摘在基于Transformer的语言模型中自注意力网络扮演了重要的角色,其中的全连接结构能够以并行方式捕捉序列中非连续的依赖关系。但是,全连接的自注意力网络很容易过拟合到虚假关联信息上,比如词与词、词与预测目标之间的虚假关联。这种过拟合问题限制了语言模型对领域外或分布外数据的泛化能力。为了提高Transformer语言模型对虚假关联的鲁棒性以及泛化能力,提出掩码语言增强表示的对比学习微调框架(fine-tuning framework via mask language model enhanced representations based contrastive learning,MCL-FT)。具体而言,文本序列和其随机掩码后的序列送入到一个孪生网络,结合对比学习目标和下游任务目标对模型进行参数学习。其中,每一个孪生网络由预训练语言模型和任务分类器组成。所以,该微调框架更加符合掩码语言模型预训练学习方式,能够在下游任务中保持预训练知识的泛化能力。在MNLI、FEVER和QQP数据集以及它们的挑战数据集上与最新的基线模型进行了对比,包括大语言模型ChatGPT、GPT4、LLaMA,实验结果验证了提出模型在保证分布内性能的同时有效提高了分布外的性能。在ATIS和Snips数据集上的实验结果证明,该模型在常见自然语言处理任务中也有显著的效果。