TSPT:基于预训练的三阶段复合式文本摘要模型被引量：3

TSPT:three-stage compound text summarization model based on pre-training

下载PDF

导出

摘要抽取式方法从源文本中抽取句子,会造成信息冗余;生成式方法可能生成非源文词,会产生语法问题,自然性差。BERT作为一种双向Transformer模型,在自然语言理解任务上展现了优异的性能,但在文本生成任务的应用有待探索。针对以上问题,提出一种基于预训练的三阶段复合式文本摘要模型(TSPT),结合抽取式方法和生成式方法,将源本文经过预训练产生的双向上下文信息词向量由sigmoid函数获取句子得分抽取关键句,在摘要生成阶段将关键句作为完形填空任务重写,生成最终摘要。实验结果表明,该模型在CNN/Daily Mail数据集中取得了良好效果。 Extractive method extracts sentences from source text,which results in information redundancy.Generative method may generate non-source words,which results in grammatical problems and poor naturalness.BERT as a bidirectional Transformer model,which shows excellent performance in natural language understanding tasks.The application of text generation task remains to be explored.To address the above issues,this paper proposed a three-stage compound text summarization model based on pre-training(TSPT),which combining extractive method and generative method.The bidirectional contextual information word vectors generated by the pre-training of the source text are extracted from the sigmoid function to obtain sentence scores and extract key sentences.Finally,key sentences are rewritten as cloze filling tasks to generate final summarization.The experimental results show that it achieves high scores in CNN/Daily Mail dataset.

作者吕瑞王涛曾碧卿刘相湖 Lyu Rui;Wang Tao;Zeng Biqing;Liu Xianghu(School of Computer,South China Normal University,Guangzhou 510631,China)

机构地区华南师范大学计算机学院

出处《计算机应用研究》 CSCD 北大核心 2020年第10期2917-2921,共5页 Application Research of Computers

基金国家自然科学基金资助项目(61772211,61503143)。

关键词预训练复合式文本摘要模型抽取式方法生成式方法双向上下文信息词向量 pre-training compound text summarization model extractive method generative method bidirectional contextual information word vectors

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1王东升,王石,王卫民,符建辉,诸峰.基于带约束语义文法的领域相关自然语言理解方法[J].中文信息学报,2018,32(2):38-49. 被引量：2
2侯丽微,胡珀,曹雯琳.主题关键词信息融合的中文生成式自动摘要研究[J].自动化学报,2019,45(3):530-539. 被引量：29

二级参考文献10

1纪文倩,李舟军,巢文涵,陈小明.一种基于LexRank算法的改进的自动文摘系统[J].计算机科学,2010,37(5):151-154. 被引量：15
2任昭春,马军,陈竹敏.基于动态主题建模的Web论坛文档摘要[J].计算机研究与发展,2012,49(11):2359-2367. 被引量：8
3彭帝超,刘琳,陈广宇,陈海东,左伍衡,陈为.一种新的视频摘要可视化算法[J].计算机研究与发展,2013,50(2):371-378. 被引量：2
4莫鹏,胡珀,黄湘冀,何婷婷.基于超图的文本摘要与关键词协同抽取研究[J].中文信息学报,2015,29(6):135-140. 被引量：11
5王东升,王石,王卫民,刘亮亮,符建辉.基于本体和语义文法的上下文相关问答[J].中文信息学报,2016,30(2):142-152. 被引量：7
6刘康,张元哲,纪国良,来斯惟,赵军.基于表示学习的知识库问答研究进展与展望[J].自动化学报,2016,42(6):807-818. 被引量：27
7奚雪峰,周国栋.面向自然语言处理的深度学习研究[J].自动化学报,2016,42(10):1445-1465. 被引量：226
8赵京胜,朱巧明,周国栋,张丽.自动关键词抽取研究综述[J].软件学报,2017,28(9):2431-2449. 被引量：91
9陈伟宏,安吉尧,李仁发,李万里.深度学习认知计算综述[J].自动化学报,2017,43(11):1886-1897. 被引量：38
10陈肇雄.SC文法功能体系[J].计算机学报,1992,15(11):801-808. 被引量：23

共引文献29

1石磊,阮选敏,魏瑞斌,成颖.基于序列到序列模型的生成式文本摘要研究综述[J].情报学报,2019,38(10):1102-1116. 被引量：13
2陶兴,张向先,郭顺利,张莉曼.学术问答社区用户生成内容的W2V-MMR自动摘要方法研究[J].数据分析与知识发现,2020,4(4):109-118. 被引量：8
3叶俊民,罗达雄,陈曙.基于短文本情感增强的在线学习者成绩预测方法[J].自动化学报,2020,46(9):1927-1940. 被引量：14
4柴悦,赵彤洲,江逸琪,高佩东.基于Att-iBi-LSTM的新闻主题词提取方法研究[J].武汉工程大学学报,2020,42(5):575-580.
5谢谦,董立红,厍向阳.基于Attention-GRU的短期电价预测[J].电力系统保护与控制,2020,48(23):154-160. 被引量：48
6宁珊,严馨,徐广义,周枫,张磊.融合关键词的中文新闻文本摘要生成[J].计算机工程与科学,2020,42(12):2265-2272. 被引量：5
7谭金源,刁宇峰,祁瑞华,林鸿飞.基于BERT-PGN模型的中文新闻文本自动摘要生成[J].计算机应用,2021,41(1):127-132. 被引量：13
8黄佳佳,李鹏伟.基于变分自编码器的生成式文本摘要研究[J].计算机应用研究,2021,38(3):705-709. 被引量：3
9蓝雯飞,周伟枭,许智明,朱容波,罗一凡.基于混合过滤编码的神经中文生成式摘要[J].中南民族大学学报（自然科学版）,2021,40(3):305-311.
10李健,何汉武,吴悦明,莫建清,张俊坤,鄢鑫.面向电子办税的语音交互式AR操作指引系统[J].现代电子技术,2021,44(22):169-173.

同被引文献21

1刘植惠.知识基因探索(二)[J].情报理论与实践,1998,21(2):71-76. 被引量：30
2刘旭晖.融合主题多样性与影响力的科技文献推荐算法研究[J].情报理论与实践,2017,40(12):134-138. 被引量：8
3艾丽斯,唐卫红,傅云斌,董启民,郑建兵,高明.抽取式自动文本生成算法[J].华东师范大学学报（自然科学版）,2018(4):70-79. 被引量：1
4王凯祥.面向查询的自动文本摘要技术研究综述[J].计算机科学,2018,45(B11):12-16. 被引量：5
5邱俊.基于强化学习的混合式文本摘要模型[J].信息技术与信息化,2019(1):67-70. 被引量：2
6江跃华,丁磊,李娇娥,杜皓晅,高凯.融合词汇特征的生成式摘要模型[J].河北科技大学学报,2019,40(2):152-158. 被引量：7
7齐翌辰,王森淼,赵亚慧.基于深度学习的中文抽取式摘要方法应用[J].科教导刊,2019,0(14):69-70. 被引量：1
8张迎,王中卿,王红玲.基于篇章主次关系的单文档抽取式摘要方法研究[J].中文信息学报,2019,33(8):67-76. 被引量：13
9吴仁守,张宜飞,王红玲,张迎.基于层次结构的生成式自动文摘[J].中文信息学报,2019,33(10):90-98. 被引量：8
10田珂珂,周瑞莹,董浩业,印鉴.基于编码器共享和门控网络的生成式文本摘要方法[J].北京大学学报（自然科学版）,2020,56(1):61-67. 被引量：7

引证文献3

1谭金源,刁宇峰,杨亮,祁瑞华,林鸿飞.基于BERT-SUMOPN模型的抽取-生成式文本自动摘要[J].山东大学学报（理学版）,2021,56(7):82-90. 被引量：11
2赵梦梦,白如江,张玉洁,刘明月,邢莹.基于知识基因增强的BERT科技文献自动综述研究[J].图书情报工作,2022,66(23):125-136.
3刘迪,奚雪峰,崔志明,盛胜利.抽取-生成式自动文本摘要技术研究综述[J].计算机技术与发展,2023,33(5):1-8. 被引量：2

二级引证文献13

1王书博,程贞敏,苏渝.网络评论文本数据监管处理的优化研究--以茶产品为例[J].情报杂志,2022,41(5):118-123.
2张乐,杜一凡,吕学强,董志安.STNLTP:一种基于集成策略的中文专利摘要生成模型[J].数据分析与知识发现,2022,6(7):107-117. 被引量：1
3刘宇枝,陈博,赵鑫,李翠荣.基于TextRank的医院信息智能处理方法研究[J].粘接,2022(9):178-182. 被引量：2
4刘燕.基于层次语言的英语语法纠错系统研究[J].自动化与仪器仪表,2023(2):190-194.
5刘迪,奚雪峰,崔志明,盛胜利.抽取-生成式自动文本摘要技术研究综述[J].计算机技术与发展,2023,33(5):1-8. 被引量：2
6习海旭,何胜,黄纯国.融合语步和文本多特征的科技论文结构化摘要生成[J].情报学报,2023,42(10):1176-1186. 被引量：1
7姜胜耀,李寅驰,薛万东,朱立峰,李嘉漪.基于大模型的多阶段出院小结质控方法研究[J].中国卫生信息管理杂志,2023,20(6):888-896. 被引量：2
8孟旭阳,陈阳,白海燕.面向检索结果集的结构化综述智能生成研究[J].图书情报工作,2024,68(6):129-141. 被引量：2
9陈炫言,安娜,孙宇,周炼赤.面向司法文书的抽取-生成式自动摘要模型[J].计算机工程与设计,2024,45(4):1117-1125.
10宫昀,华雪侠.基于多语法改错证据的英语语法校对[J].自动化技术与应用,2024,43(4):82-84.

计算机应用研究

2020年第10期

浏览历史

内容加载中请稍等...

TSPT:基于预训练的三阶段复合式文本摘要模型被引量：3

参考文献2

二级参考文献10

共引文献29

同被引文献21

引证文献3

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

TSPT:基于预训练的三阶段复合式文本摘要模型 被引量：3

参考文献2

二级参考文献10

共引文献29

同被引文献21

引证文献3

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

TSPT:基于预训练的三阶段复合式文本摘要模型被引量：3