摘要
基于编码器-解码器架构的序列到序列学习模型是近年来主流的生成式文摘方法。但是,传统的编码器尚不能有效地对长文档进行语义编码,并且只能学习线性链结构的信息,忽视了文档具有的层次结构。而文档的层次结构(字-句-文档)有助于自动文摘系统更加准确地判断文档内不同结构单元的语义信息和重要程度。为了使编码器能够获取文档的层次结构信息,该文根据文档的层次结构对文档进行编码:首先构建字级语义表示,然后由字级语义表示构建句级语义表示。另外,该文还提出了一种语义融合单元来对输入文档不同层次的语义信息进行融合,作为最终的文档表示提供给编码器生成摘要。实验结果表明,在加入该文提出的层次文档阅读器与语义融合单元后,系统性能在ROUGE评价指标上有显著提高。
Sequence-to-sequence model based on encoder-decoder architecture is the mainstream of generative summarization method at present.However,the traditional encoder cannot effectively encode long document semantically,and ignores the hierarchical structure information of document.To deal with this issue,this paper propose to hierarchically encode the document:firstly,the word-level semantic representation is constructed,and then the sentencelevel semantic representation is constructed from the word-level semantic representation.In addition,a semantic fusion unit is proposed to fuse the different levels of representation information as the final document-level representation.The experimental results show that the system performance is significantly improved according to ROUGE evaluation.
作者
吴仁守
张宜飞
王红玲
张迎
WU Renshou;ZHANG Yifei;WANG Hongling;ZHANG Ying(School of Computer Science and Technology,Soochow University,Suzhou,Jiangsu 215006,China)
出处
《中文信息学报》
CSCD
北大核心
2019年第10期90-98,共9页
Journal of Chinese Information Processing
基金
国家自然科学基金(61402314)
关键词
文档层次结构
自动文摘
自然语言生成
document hierarchical structure
automatic text summarization
natural language generation