-
题名基于句法模板采样的无监督复述生成方法
被引量:1
- 1
-
-
作者
鲍宇
黄书剑
周浩
李磊
戴新宇
陈家骏
-
机构
南京大学软件新技术国家重点实验室
鹏城实验室
字节跳动人工智能实验室
-
出处
《中国科学:信息科学》
CSCD
北大核心
2022年第10期1808-1821,共14页
-
基金
国家自然科学基金(批准号:6217020152)
国家重点研发计划前沿科技创新专项(批准号:2019QY1806)资助。
-
文摘
文本复述可以辅助机器翻译、智能问答、文本分类等任务,是非常重要的自然语言处理任务.近年来,一些研究探索了基于结构变换的文本复述,从无监督学习的概率化表示空间中采样多个句法表示并生成多个复述.然而,通过后验分布采样句法表示生成的复述往往高度相似,缺乏多样性;另一方面,从先验分布采样句法表示又难以保证与给定的语义表示相匹配,导致生成的复述质量欠佳.本文提出了基于句法模板的文本复述模型,引入了句法模板隐变量建立语义空间和句法空间的联系,并进一步提出了两步采样策略:(1)使用先验分布采样句法模板,使得采样的句法表示更加多样化;(2)使用后验分布采样句法表示,以确保句法表示与语义表示的匹配.实验表明,两步采样策略有效地结合了先验采样和后验采样的优势,生成的文本复述可以在具备良好生成质量的同时保持着更好的多样性,取得了当前最佳的复述性能.
-
关键词
无监督复述
变分自编码器
句法结构
采样
-
Keywords
unsupervised paraphrasing
variational autoencoder
syntax structure
sampling
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-