摘要
复述生成技术是自然语言处理领域重要的研究方向,具有广泛的应用场景。目前的预训练模型能够很好地从文本中获取丰富的语义信息,但这些模型生成的复述句在语法结构上缺乏多样性。为解决上述问题,该文对比了不同预训练模型在复述生成任务上的效果,选择UniLM预训练模型作为基础模型,并在此基础上提出了新的句子复述生成方法。首先提出了一种构建句法模板的方法,在不改变模板句的句法结构的前提下,使用特殊字符替换模板句中相关词性的词,同时提出编辑向量的方法用于增强预训练模型。实验结果表明,在Quora和ParaNMT-small数据集上,该文提出的模型在自动评价和人工评价指标上均有明显提升。
Paraphrase generation technology is an important research direction in natural language processing.Current pre-trained models fail to generate the paraphrases with diverse syntactic structures.This paper proposes a sentence paraphrase generation method based on UniLM pre-trained model.Firstly,we propose a method for constructing syntax templates,which uses special characters to replace relevant part-of-speech words without modifying the syntactic structure in the templates.Also,we propose edit vectors to enhance the pre-trained model.Experiments on the Quora and ParaNMT-small datasets demonstrate the improvements of this method in both automatic and human evaluation metric.
作者
路曼
王东升
钟家国
李佳伟
LU Man;WANG Dongsheng;ZHONG Jiaguo;LI Jiawei(School of Computer Science,Jiangsu University of Science and Technology,Zhenjiang,Jiangsu 212100,China)
出处
《中文信息学报》
CSCD
北大核心
2024年第10期165-174,共10页
Journal of Chinese Information Processing
基金
国家自然科学基金(61702234)
船舶总体性能创新研究开放基金(25422217)。
关键词
复述生成
预训练模型
多样性
paraphrase generation
pre-trained model
diversity