在基于Transformer的语言模型中自注意力网络扮演了重要的角色,其中的全连接结构能够以并行方式捕捉序列中非连续的依赖关系。但是,全连接的自注意力网络很容易过拟合到虚假关联信息上,比如词与词、词与预测目标之间的虚假关联。这种过...在基于Transformer的语言模型中自注意力网络扮演了重要的角色,其中的全连接结构能够以并行方式捕捉序列中非连续的依赖关系。但是,全连接的自注意力网络很容易过拟合到虚假关联信息上,比如词与词、词与预测目标之间的虚假关联。这种过拟合问题限制了语言模型对领域外或分布外数据的泛化能力。为了提高Transformer语言模型对虚假关联的鲁棒性以及泛化能力,提出掩码语言增强表示的对比学习微调框架(fine-tuning framework via mask language model enhanced representations based contrastive learning,MCL-FT)。具体而言,文本序列和其随机掩码后的序列送入到一个孪生网络,结合对比学习目标和下游任务目标对模型进行参数学习。其中,每一个孪生网络由预训练语言模型和任务分类器组成。所以,该微调框架更加符合掩码语言模型预训练学习方式,能够在下游任务中保持预训练知识的泛化能力。在MNLI、FEVER和QQP数据集以及它们的挑战数据集上与最新的基线模型进行了对比,包括大语言模型ChatGPT、GPT4、LLaMA,实验结果验证了提出模型在保证分布内性能的同时有效提高了分布外的性能。在ATIS和Snips数据集上的实验结果证明,该模型在常见自然语言处理任务中也有显著的效果。展开更多
为解决BERT(bidirectional encoder representations from transformers)编码器在掩码过程中人为引入噪音、掩码比例过小难以掩盖短交互序列中的项目以及掩码比例过大导致模型难以训练3个问题,提出一种更改BERT编码器掩码方式的对比学...为解决BERT(bidirectional encoder representations from transformers)编码器在掩码过程中人为引入噪音、掩码比例过小难以掩盖短交互序列中的项目以及掩码比例过大导致模型难以训练3个问题,提出一种更改BERT编码器掩码方式的对比学习方法,为模型提供3类学习样本,使模型在训练过程中模仿人类学习进程,从而取得较好的结果。提出的算法在3个公开数据集上进行对比试验,性能基本优于基线模型,其中,在MovieLens-1M数据集上HR@5和NDCG@5指标分别提高9.68%和10.55%。由此可见,更改BERT编码器的掩码方式以及新的对比学习方法能够有效提高BERT编码器的编码准确性,从而提高推荐的正确率。展开更多
文摘在基于Transformer的语言模型中自注意力网络扮演了重要的角色,其中的全连接结构能够以并行方式捕捉序列中非连续的依赖关系。但是,全连接的自注意力网络很容易过拟合到虚假关联信息上,比如词与词、词与预测目标之间的虚假关联。这种过拟合问题限制了语言模型对领域外或分布外数据的泛化能力。为了提高Transformer语言模型对虚假关联的鲁棒性以及泛化能力,提出掩码语言增强表示的对比学习微调框架(fine-tuning framework via mask language model enhanced representations based contrastive learning,MCL-FT)。具体而言,文本序列和其随机掩码后的序列送入到一个孪生网络,结合对比学习目标和下游任务目标对模型进行参数学习。其中,每一个孪生网络由预训练语言模型和任务分类器组成。所以,该微调框架更加符合掩码语言模型预训练学习方式,能够在下游任务中保持预训练知识的泛化能力。在MNLI、FEVER和QQP数据集以及它们的挑战数据集上与最新的基线模型进行了对比,包括大语言模型ChatGPT、GPT4、LLaMA,实验结果验证了提出模型在保证分布内性能的同时有效提高了分布外的性能。在ATIS和Snips数据集上的实验结果证明,该模型在常见自然语言处理任务中也有显著的效果。
文摘为解决BERT(bidirectional encoder representations from transformers)编码器在掩码过程中人为引入噪音、掩码比例过小难以掩盖短交互序列中的项目以及掩码比例过大导致模型难以训练3个问题,提出一种更改BERT编码器掩码方式的对比学习方法,为模型提供3类学习样本,使模型在训练过程中模仿人类学习进程,从而取得较好的结果。提出的算法在3个公开数据集上进行对比试验,性能基本优于基线模型,其中,在MovieLens-1M数据集上HR@5和NDCG@5指标分别提高9.68%和10.55%。由此可见,更改BERT编码器的掩码方式以及新的对比学习方法能够有效提高BERT编码器的编码准确性,从而提高推荐的正确率。