基于层次结构的生成式自动文摘被引量：8

Abstractive Summarization Based on Hierarchical Structure

下载PDF

导出

摘要基于编码器-解码器架构的序列到序列学习模型是近年来主流的生成式文摘方法。但是,传统的编码器尚不能有效地对长文档进行语义编码,并且只能学习线性链结构的信息,忽视了文档具有的层次结构。而文档的层次结构(字-句-文档)有助于自动文摘系统更加准确地判断文档内不同结构单元的语义信息和重要程度。为了使编码器能够获取文档的层次结构信息,该文根据文档的层次结构对文档进行编码:首先构建字级语义表示,然后由字级语义表示构建句级语义表示。另外,该文还提出了一种语义融合单元来对输入文档不同层次的语义信息进行融合,作为最终的文档表示提供给编码器生成摘要。实验结果表明,在加入该文提出的层次文档阅读器与语义融合单元后,系统性能在ROUGE评价指标上有显著提高。 Sequence-to-sequence model based on encoder-decoder architecture is the mainstream of generative summarization method at present.However,the traditional encoder cannot effectively encode long document semantically,and ignores the hierarchical structure information of document.To deal with this issue,this paper propose to hierarchically encode the document:firstly,the word-level semantic representation is constructed,and then the sentencelevel semantic representation is constructed from the word-level semantic representation.In addition,a semantic fusion unit is proposed to fuse the different levels of representation information as the final document-level representation.The experimental results show that the system performance is significantly improved according to ROUGE evaluation.

作者吴仁守张宜飞王红玲张迎 WU Renshou;ZHANG Yifei;WANG Hongling;ZHANG Ying(School of Computer Science and Technology,Soochow University,Suzhou,Jiangsu 215006,China)

机构地区苏州大学计算机科学与技术学院

出处《中文信息学报》 CSCD 北大核心 2019年第10期90-98,共9页 Journal of Chinese Information Processing

基金国家自然科学基金(61402314)

关键词文档层次结构自动文摘自然语言生成 document hierarchical structure automatic text summarization natural language generation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1王红玲,周国栋,朱巧明.面向冗余度控制的中文多文档自动文摘[J].中文信息学报,2012,26(2):92-96. 被引量：6
2刘洋.神经机器翻译前沿进展[J].计算机研究与发展,2017,54(6):1144-1149. 被引量：109
3刘挺,吴岩,王开铸.自动文摘综述[J].情报科学,1998,16(1):63-69. 被引量：10

二级参考文献17

1傅间莲,陈群秀.基于规则和统计的中文自动文摘系统[J].中文信息学报,2006,20(5):10-16. 被引量：21
2刘德喜,何炎祥,姬东鸿,杨华.一种基于演化算法进行句子抽取的多文档自动摘要系统SBGA[J].中文信息学报,2006,20(6):46-53. 被引量：10
3马慧芳,祁云平,杨小东.一种基于文本关系图的多文档自动摘要技术[J].情报杂志,2007,26(3):67-69. 被引量：7
4Radev,DR.,H.Jing,M.Budzikowska.Centroidbased summarization of multiple documents:sentence extraction,utility-based evaluation,and user studies[C].ANLP/ NAACL 2000:21-29.
5Radev,D.,Jing,H.,Sty s,M.,et al. Centroidbased summarization of multiple documents[J].Information Processing and Management 2004, 40:919-938.
6Haghighi A., Vanderwende L. Exploring Content Models for Multi-Document Summarization[C]//NAACL'2009:362-370.
7Hongling Wang,Guodong Zhou.Topic-driven Multidocument Summarization[C]// IALP'2010.
8姚天顺，自然语言理解.一种让机器懂得人类语言的研究，1995年
9李俊杰，博士学位论文，1995年
10王建波，博士学位论文，1992年

共引文献121

1赵莹莹.机器翻译与人工翻译特点对比与关系分析[J].作家天地,2020(13):30-31.
2王醒.译军突起:人工翻译能否经受住机器翻译的考验?[J].现代英语,2021(10):72-74. 被引量：1
3贾承勋,赖华,余正涛,文永华,于志强.基于短语替换的汉越伪平行句对生成[J].中文信息学报,2021,35(8):47-55. 被引量：2
4朱婕.汉韩机器翻译错误分析[J].大众标准化,2021(2):134-136.
5夏玲,李宜蔓,李弘武.人工智能背景下科技论文摘要的机器翻译与译后编辑[J].编辑学报,2022,34(4):396-401. 被引量：15
6蔡建山,迟呈英,战学刚,王丫.基于滑动窗口的动态摘要算法[J].计算机工程,2007,33(6):213-215. 被引量：4
7朱荷香,曲维光,卢俊之,李素建,邵艳秋.面向自动文摘的文本结构划分[J].南京大学学报（自然科学版）,2008,44(2):204-211. 被引量：2
8王永成,刘功申,刘传汉,胡佩华,孙展.论文本的自动摘要[J].中国索引,2003,0(2):34-39. 被引量：1
9王荀,李素建,宋涛,姜伯平.服务于内容侧面发现的框架识别[J].中文信息学报,2012,26(2):51-55.
10张有礼.在西医病房会诊的体会[J].中医杂志,2000,41(4):212-213.

同被引文献26

1宋锐,林鸿飞,杨志豪.面向中文新闻领域的移动摘要系统[J].中文信息学报,2008,22(1):87-92. 被引量：4
2刘挺,吴岩,王开铸.自动文摘综述[J].情报科学,1998,16(1):63-69. 被引量：10
3王红玲,周国栋,朱巧明.面向冗余度控制的中文多文档自动文摘[J].中文信息学报,2012,26(2):92-96. 被引量：6
4李蕾,钟义信,郭祥昊.面向特定领域的理解型中文自动文摘系统[J].计算机研究与发展,2000,37(4):493-497. 被引量：14
5石文川,郭桂仙,李川,李宇.摘要在科技论文中的重要性及写作技巧[J].河北农业大学学报,2000,23(4):111-113. 被引量：3
6唐共波,于东,荀恩东.基于知网义原词向量表示的无监督词义消歧方法[J].中文信息学报,2015,29(6):23-29. 被引量：15
7孙茂松,陈新雄.借重于人工知识库的词和义项的向量表示：以HowNet为例[J].中文信息学报,2016,30(6):1-6. 被引量：12
8褚晓敏,朱巧明,周国栋.自然语言处理中的篇章主次关系研究[J].计算机学报,2017,40(4):842-860. 被引量：23
9艾丽斯,唐卫红,傅云斌,董启民,郑建兵,高明.抽取式自动文本生成算法[J].华东师范大学学报（自然科学版）,2018(4):70-79. 被引量：1
10苏放,王晓宇,张治.基于注意力机制的评论摘要生成[J].北京邮电大学学报,2018,41(3):7-13. 被引量：9

引证文献8

1宁珊,严馨,徐广义,周枫,张磊.融合关键词的中文新闻文本摘要生成[J].计算机工程与科学,2020,42(12):2265-2272. 被引量：5
2姜志祥,叶青,傅晗,张帆.基于自注意力与指针网络的自动摘要模型[J].计算机工程与设计,2021,42(3):711-718. 被引量：4
3谭金源,刁宇峰,杨亮,祁瑞华,林鸿飞.基于BERT-SUMOPN模型的抽取-生成式文本自动摘要[J].山东大学学报（理学版）,2021,56(7):82-90. 被引量：11
4付颖,王红玲,王中卿.基于单词-章节关联的科技论文摘要[J].计算机科学,2021,48(10):59-66.
5付颖,王红玲,王中卿.基于宏观篇章结构的科技论文摘要模型[J].计算机应用,2021,41(10):2864-2870. 被引量：1
6李健智,王红玲,王中卿.基于图卷积网络的专利摘要自动生成研究[J].计算机科学,2022,49(S01):172-177. 被引量：3
7崔卓,李红莲,张乐,吕学强.一种融合义原的中文摘要生成方法[J].中文信息学报,2022,36(6):146-154.
8李健智,王红玲,王中卿.基于场景与对话结构的摘要生成研究[J].计算机工程,2023,49(4):303-311. 被引量：1

二级引证文献24

1邹蕾,崔斌,樊超,孙豫峰.基于双向编码文本摘要-长短期记忆-注意力的检察建议文本自动生成模型[J].科学技术与工程,2021,21(25):10780-10788. 被引量：9
2马玉庆,刘一翔,张根熹,万宇明.网站内容自动摘要方法及其在高校年鉴编制中的应用[J].微型电脑应用,2021,37(10):168-170. 被引量：1
3吴德平,时翔,王晓东.基于BERT模型的安全生产事故多标签文本分类[J].武汉工程大学学报,2021,43(5):586-590. 被引量：6
4王书博,程贞敏,苏渝.网络评论文本数据监管处理的优化研究--以茶产品为例[J].情报杂志,2022,41(5):118-123.
5张乐,杜一凡,吕学强,董志安.STNLTP:一种基于集成策略的中文专利摘要生成模型[J].数据分析与知识发现,2022,6(7):107-117. 被引量：1
6刘宇枝,陈博,赵鑫,李翠荣.基于TextRank的医院信息智能处理方法研究[J].粘接,2022(9):178-182. 被引量：2
7门鼎,陈亮.基于改进Seq2Seq-Attention模型的文本摘要生成方法[J].电子设计工程,2022,30(23):6-10. 被引量：2
8郭继峰,费禹潇,孙文博,谢培浇,张健.一种融合主题的PGN-GAN文本摘要模型[J].小型微型计算机系统,2023,44(1):199-203. 被引量：1
9刘燕.基于层次语言的英语语法纠错系统研究[J].自动化与仪器仪表,2023(2):190-194.
10刘迪,奚雪峰,崔志明,盛胜利.抽取-生成式自动文本摘要技术研究综述[J].计算机技术与发展,2023,33(5):1-8. 被引量：2

1王坚俊,汪宇怀,汪李忠,钱浩,郑伟彦,邢海青,程垚垚,马利东.面向电网应用的智能监屏机器人研究[J].电工技术,2019,0(22):128-130. 被引量：1
2刘贝贝,华蓓.基于编码器-解码器的半监督图像语义分割[J].计算机系统应用,2019,28(11):182-187. 被引量：4
3潘俊,吴宗大.词汇表示学习研究进展[J].情报学报,2019,38(11):1222-1240. 被引量：9
4段利国,高建颖,李爱萍.机器阅读理解中观点型问题的求解策略研究[J].中文信息学报,2019,33(10):81-89. 被引量：3
5殷存举.基于ASP.NET MVC技术的在线RSS阅读器的设计与实现[J].信息技术与信息化,2019,0(11):93-95. 被引量：2
6丁智勇,李国政,张通化,马登成.振动作用下填石路基压实特性的数值模拟[J].路基工程,2019,0(6):114-118. 被引量：12
7郑诚,薛满意,洪彤彤,宋飞豹.用于短文本分类的DC-BiGRU_CNN模型[J].计算机科学,2019,46(11):186-192. 被引量：17
8陈红琳.基于Hash的阅读器与标签之间的认证协议优化研究[J].电脑知识与技术,2019,15(9X):19-21.
9刘丹,段小芳,熊刚.一种基于FPGA和DSP的UHF RFID接收平台设计[J].通信技术,2019,52(12):3085-3089.
10刘浩,骆剑承,黄波,杨海平,胡晓东,徐楠,夏列钢.基于特征压缩激活Unet网络的建筑物提取[J].地球信息科学学报,2019,21(11):1779-1789. 被引量：40

中文信息学报

2019年第10期

浏览历史

内容加载中请稍等...

基于层次结构的生成式自动文摘被引量：8

参考文献3

二级参考文献17

共引文献121

同被引文献26

引证文献8

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于层次结构的生成式自动文摘 被引量：8

参考文献3

二级参考文献17

共引文献121

同被引文献26

引证文献8

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于层次结构的生成式自动文摘被引量：8