期刊文献+

融合句法信息和编辑向量的句子复述生成

Paraphrase Generation with Syntactic Information and Edit Vectors
下载PDF
导出
摘要 复述生成技术是自然语言处理领域重要的研究方向,具有广泛的应用场景。目前的预训练模型能够很好地从文本中获取丰富的语义信息,但这些模型生成的复述句在语法结构上缺乏多样性。为解决上述问题,该文对比了不同预训练模型在复述生成任务上的效果,选择UniLM预训练模型作为基础模型,并在此基础上提出了新的句子复述生成方法。首先提出了一种构建句法模板的方法,在不改变模板句的句法结构的前提下,使用特殊字符替换模板句中相关词性的词,同时提出编辑向量的方法用于增强预训练模型。实验结果表明,在Quora和ParaNMT-small数据集上,该文提出的模型在自动评价和人工评价指标上均有明显提升。 Paraphrase generation technology is an important research direction in natural language processing.Current pre-trained models fail to generate the paraphrases with diverse syntactic structures.This paper proposes a sentence paraphrase generation method based on UniLM pre-trained model.Firstly,we propose a method for constructing syntax templates,which uses special characters to replace relevant part-of-speech words without modifying the syntactic structure in the templates.Also,we propose edit vectors to enhance the pre-trained model.Experiments on the Quora and ParaNMT-small datasets demonstrate the improvements of this method in both automatic and human evaluation metric.
作者 路曼 王东升 钟家国 李佳伟 LU Man;WANG Dongsheng;ZHONG Jiaguo;LI Jiawei(School of Computer Science,Jiangsu University of Science and Technology,Zhenjiang,Jiangsu 212100,China)
出处 《中文信息学报》 CSCD 北大核心 2024年第10期165-174,共10页 Journal of Chinese Information Processing
基金 国家自然科学基金(61702234) 船舶总体性能创新研究开放基金(25422217)。
关键词 复述生成 预训练模型 多样性 paraphrase generation pre-trained model diversity
  • 引文网络
  • 相关文献
;
使用帮助 返回顶部