结合主题信息聚类编码的文本摘要模型被引量：2

A Text Abstract Summarization Model Combined with Theme Information Clustering Coding

下载PDF

导出

摘要结合注意力机制的序列到序列模型在生成式文本摘要的研究中已取得了广泛应用,但基于该模型的摘要生成技术依然存在信息编码不充分、生成的摘要偏离主题的问题,对此提出了一种结合主题信息聚类编码的文本摘要生成模型TICTS(theme information clustering coding text summarization)。将传统的抽取式文本摘要方法与基于深度学习的生成式文本摘要方法相结合,使用基于词向量的聚类算法进行主题信息提取,利用余弦相似度计算输入文本与所提取关键信息的主题相关性,将其作为主题编码的权重以修正注意力机制,在序列到序列模型的基础上结合主题信息与注意力机制生成摘要。模型在LCSTS数据集上进行实验,以ROUGE为评价标准,实验结果相对于基线模型在ROUGE-1的得分上提高了1.1,ROUGE-2提高了1.3,ROUGE-L提高了1.1。实验证明结合主题信息聚类编码的摘要模型生成的摘要更切合主题,摘要质量有所提高。 The sequence-to-sequence model combined with the attention mechanism has been widely used in the research of the generative text abstract,but the abstract generation technology based on this model still has the problems of insufficient information encoding and the generated abstract deviating from the topic.Therefore,we present a TICTS(theme information clustering coding text summarization)model based on the cluster encoding of topic information.The traditional extraction text abstract method is combined with the generation text summary method based on deep learning,and the topic information is extracted by using the clustering algorithm based on word vector.The topic correlation between the input text and the extracted key information is calculated by cosine similarity,which is used as the weight of topic encoding to modify the attention mechanism,and the abstract is generated by combining the topic information and attention mechanism on the basis of the sequence-to-sequence model.The model is tested on the LCSTS dataset.With ROUGE as the evaluation standard,compared with the baseline model,the experimental results are improved by 1.1,1.3 and 1.1 in terms of the score of Rouges-1,Rouges-2 and Rouges-L.It is showed that the summary model combined with the abstract model of topic information cluster encoding is more relevant to the topic,and the quality of abstract is improved.

作者魏媛媛倪建成高峰吴俊清 WEI Yuan-yuan;NI Jian-cheng;GAO Feng;WU Jun-qing(School of Software,Qufu Normal University,Jining 272000,China)

机构地区曲阜师范大学软件学院

出处《计算机技术与发展》 2021年第1期30-34,共5页 Computer Technology and Development

基金国家自然科学基金青年项目(61601261) 山东省研究生教育质量提升计划项目(SDYY17136)

关键词序列到序列模型生成式文本摘要词向量聚类主题编码余弦相似度 sequence-to-sequence model generative text abstract word vector clustering theme coding cosine similarity

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1岳一峰,黄蔚,任祥辉.一种基于BERT的自动文本摘要模型构建方法[J].计算机与现代化,2020,0(1):63-68. 被引量：3
2王千,王成,冯振元,叶金凤.K-means聚类算法研究综述[J].电子设计工程,2012,20(7):21-24. 被引量：306
3明拓思宇,陈鸿昶.文本摘要研究进展与趋势[J].网络与信息安全学报,2018,4(6):1-10. 被引量：9
4何颖刚,王宇.一种基于字向量和LSTM的句子相似度计算方法[J].长江大学学报（自然科学版）,2019,16(1):88-94. 被引量：4
5夏天.词向量聚类加权TextRank的关键词抽取[J].数据分析与知识发现,2017,1(2):28-34. 被引量：60
6王彬宇,刘文芬,胡学先,魏江宏.基于余弦距离选取初始簇中心的文本聚类研究[J].计算机工程与应用,2018,54(10):11-18. 被引量：23
7张敏,曾碧卿,韩旭丽,徐如阳.DAPC:结合双注意力和指针覆盖的文本摘要模型[J].计算机工程与应用,2020,56(8):149-157. 被引量：7
8周才东,曾碧卿,王盛玉,商齐.结合注意力与卷积神经网络的中文摘要研究[J].计算机工程与应用,2019,55(8):132-137. 被引量：13
9朱世玲,郑彦.改进的文本特征选取算法研究[J].计算机技术与发展,2019,29(5):66-69. 被引量：2

二级参考文献53

1卢新国,林亚平,陈治平.一种改进的互信息特征选取预处理算法[J].湖南大学学报（自然科学版）,2005,32(1):104-107. 被引量：12
2耿焕同,蔡庆生,赵鹏,于琨.一种基于词共现图的文档自动摘要研究[J].情报学报,2005,24(6):651-656. 被引量：15
3苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
4Anil K J. Data clustering:50 years beyond K-Means[J].Pattern Recognition Letters,2010,(08):651-666.
5Likas A,Vlassis M,Verbeek J. The global K-means clustering algorithm[J].Pattern Recognition,2003,(02):451-461.doi:10.1016/S0031-3203(02)00060-2.
6Selim S Z,Al-Sultan K S. Analysis of global K-means,an incremental heuristic for minimum sum-of-squares clustering[J].Journal of Classification,2005,(22):287-310.
7Bellman R,Dreyfus S. Applied dynamic programming[M].Princeton,New Jersey:Princeton University Press,1962.
8Aloise D,Deshpande A,Hansen P. NP-hardness of euclidean sum-of-squares clustering[J].Machine Learning,2009,(02):245-248.
9Mahajan M,Nimbor P,Varadarajan K. The planar K-means problem is NP-hard[J].Lecture Notes in Computer Science,2009,(5431):274-285.
10Ball G,Hall D. ISODATA,a novel method of data analysis and pattern classification[Technical rept. NTIS AD 699616. ][M].California:Stanford Research Institute,1965.

共引文献418

1马燕,余海军,钟发生,刘丰林.基于残差编解码网络的CT图像金属伪影校正[J].仪器仪表学报,2020,41(8):160-169. 被引量：17
2谢皓,孙小东,何海熙.基于K-means聚类的高炉操作炉型研究[J].冶金自动化,2023,47(S01):88-91.
3聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
4高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
5赵源,王越,胡华.基于POI-K-means地铁车站聚类方法研究[J].智能计算机与应用,2022,12(5):114-118. 被引量：4
6Kui Luo,Wenhui Shi,Weisheng Wang.Extreme scenario extraction of a grid with large scale wind power integration by combined entropy-weighted clustering method[J].Global Energy Interconnection,2020,3(2):140-148. 被引量：8
7尹谷双,廖茜茜,朱龙昌,朱锴,杨正乾,陈斌.基于深度学习的变压器故障后验分析[J].云南电业,2024(1):24-28.
8尹谷双,廖茜茜,朱龙昌,朱锴,杨正乾,陈斌.基于深度学习的变压器故障后验分析[J].云南电业,2023(11):29-34.
9郑攀,庹武.基于K-means聚类算法的女裤弹性面料分类研究[J].国际纺织导报,2014,42(5):71-72. 被引量：1
10王国军,毛显勇.应用不等式的等号成立条件解题[J].中学数学研究（华南师范大学）（上半月）,2000(4):22-23.

同被引文献7

1冯永,唐黎.视觉与标签信息的Deep Web查询页面内容提取[J].重庆大学学报（自然科学版）,2012,35(6):117-124. 被引量：1
2肖升,何炎祥.改进的潜在语义分析中文摘录方法[J].计算机应用研究,2012,29(12):4507-4511. 被引量：8
3殷瑞刚,魏帅,李晗,于洪.深度学习中的无监督学习方法综述[J].计算机系统应用,2016,25(8):1-7. 被引量：48
4刘家益,邹益民.近70年文本自动摘要研究综述[J].情报科学,2017,35(7):154-161. 被引量：18
5马慧芳,王双,李苗,李宁.融合图结构与节点关联的关键词提取方法[J].中文信息学报,2019,33(9):69-78. 被引量：8
6刘遵雄,蒋中慧,任行乐.多尺度生成对抗网络的图像超分辨率算法[J].科学技术与工程,2020,20(13):5217-5223. 被引量：6
7李金鹏,张闯,陈小军,胡玥,廖鹏程.自动文本摘要研究综述[J].计算机研究与发展,2021,58(1):1-21. 被引量：49

引证文献2

1王晴.基于统计的多文本网站文本内容抽取算法[J].安徽电子信息职业技术学院学报,2021,20(4):6-12. 被引量：2
2陈亚瑞,王浩楠,张芝慧,杨剑宁,丁文强.基于对抗性策略的变分自编码模型[J].天津科技大学学报,2022,37(1):56-63.

二级引证文献2

1冯俊辉,刘晨,郭浩然.基于模板和规则的声明式代码生成[J].数字技术与应用,2022,40(2):151-154.
2涂著刚,李正军,杨敏.基于柔性粒度的文本摘要自动化技术创新研究[J].计算机科学与应用,2021,11(10):2546-2554.

1罗芳,汪竞航,何道森,蒲秋梅.融合主题特征的文本自动摘要方法研究[J].计算机应用研究,2021,38(1):129-133. 被引量：5
2李金鹏,张闯,陈小军,胡玥,廖鹏程.自动文本摘要研究综述[J].计算机研究与发展,2021,58(1):1-21. 被引量：49
3蔺丽,沈峰,邓文萍,毛树松,张盼,余辕耕.基于针灸临床数据的信息分类与编码研究[J].时珍国医国药,2020,31(8):2040-2042. 被引量：1
4谭金源,刁宇峰,祁瑞华,林鸿飞.基于BERT-PGN模型的中文新闻文本自动摘要生成[J].计算机应用,2021,41(1):127-132. 被引量：12
5魏丹丹,赵世湖,肖晨超,崔航,刘书含.资源一号02D卫星高光谱数据叶面积指数估算方法[J].航天器工程,2020,29(6):169-173. 被引量：3
6焦扬,杨传颖,石宝.基于SVM相关反馈的鞋印图像检索算法[J].计算机科学,2020,47(S02):244-247. 被引量：1
7宋明,李超,何明,徐吉兵.基于聚类与深度学习的自监督文本摘要方法[J].通讯世界,2020,27(12):237-238.
8王红利.语义关系下英语复杂长句机器翻译算法优化[J].机械设计与制造工程,2020,49(12):118-120. 被引量：4
9展佳俊,赵逢禹,艾均.基于多特征值的源代码相似性检测技术[J].计算机技术与发展,2021,31(1):103-109. 被引量：1
10茹明珠.读后续写任务中文本复杂度对写作语言的影响[J].江西电力职业技术学院学报,2020,33(10):148-149.

计算机技术与发展

2021年第1期

浏览历史

内容加载中请稍等...

结合主题信息聚类编码的文本摘要模型被引量：2

参考文献9

二级参考文献53

共引文献418

同被引文献7

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

结合主题信息聚类编码的文本摘要模型 被引量：2

参考文献9

二级参考文献53

共引文献418

同被引文献7

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

结合主题信息聚类编码的文本摘要模型被引量：2