基于领域概念图的航天新闻自动摘要模型

Automatic summarization model of aerospace news based on domain concept graph

下载PDF

导出

摘要互联网海量的航天新闻中隐含着大量航天情报信息,对其进行理解与压缩是提高后续情报分析效率的基础。然而通用的自动摘要算法往往会忽略很多航天领域关键信息,且有监督自动摘要算法需要对领域文本进行大量的数据标注,费时费力。因此,提出一种基于领域概念图的无监督自动摘要(DCG-TextRank)模型,利用领域术语辅助引导图排序,提高模型对领域文本的理解力。该模型分3个模块:领域概念图生成、图权重初始化、图排序及语义筛选。根据句向量相似度和领域术语库,将文本转换为包含句子节点和领域术语节点的领域概念图;根据航天新闻文本特征初始化领域概念图权值;采用TextRank模型对句子进行排序,并在语义筛选模块通过图节点聚类及设置摘要语义保留度的方法改进TextRank的输出,充分保留文本的多语义信息并降低冗余。所提模型具有领域可移植性,且实验结果表明:在航天新闻数据集中,所提模型相比传统TextRank模型性能提升了14.97%,相比有监督抽取式文本摘要模型BertSum和MatchSum性能提升了4.37%~12.97%。 The effectiveness of subsequent intelligence analysis can be increased by comprehending and compressing the vast amount of aerospace information that is hidden in the Internet's aerospace news.However the general automatic summarization algorithms tend to ignore many domain key Information,and the existing supervised automatic summarization algorithms need to annotate a lot of data in the domain text.It is time-consuming and laborious.Therefore,we proposed an unsupervised automatic summarization model TextRank based on domain concept graph(DCG-TextRank).It is based on a domain concept graph,which uses domain terms to help guide graph ordering and improve the model's understanding of domain text.The model has three modules:domain concept graph generation,graph weight initialization,graph sorting and semantic filtering.Transform the text into domain concept graph containing sentence nodes and domain term nodes according to sentence vector similarity and domain term database.Initialize the domain concept graph weight according to the features of aerospace news text.Use the TextRank algorithm to sort the sentences,and in the semantic filtering module,the output of TextRank is improved by clustering the graph nodes and setting the semantic retention of the abstract,which fully preserves the semantic Information of text and reduces redundancy.The proposed model is domain portable,and experimental findings indicate that in the aerospace news dataset,the proposed model performs 14.97%better than the conventional TextRank model and 4.37%~12.97%better than the supervised extraction text summary models BertSum and MatchSum.

作者黄浩宁陈志敏徐聪张晓燕 HUANG Haoning;CHEN Zhimin;XU Cong;ZHANG Xiaoyan(National Space Science Center,Chinese Academy of Sciences,Beijing 100190,China;University of Chinese Academy of Sciences,Beijing 100049,China;State Radio Monitoring Center,Beijing 100037,China)

机构地区中国科学院国家空间科学中心中国科学院大学国家无线电监测中心

出处《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第1期317-327,共11页 Journal of Beijing University of Aeronautics and Astronautics

基金国家自然科学基金(91738101) 国家重点研发计划(2020YFB1807900)。

关键词自动文本摘要领域概念图预训练语言模型图排序算法图节点聚类 automatic text summarization domain concept graph Pre-trained language model graph sorting algorithm graph node clustering

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1吴仁守,刘凯,王红玲.一种基于局部—全局主题关系的演化式摘要系统[J].中文信息学报,2018,32(9):75-83. 被引量：5
2方萍,徐宁.基于BERT双向预训练的图模型摘要抽取算法[J].计算机应用研究,2021,38(9):2657-2661. 被引量：4
3李峰,黄金柱,李舟军,杨伟铭.使用关键词扩展的新闻文本自动摘要方法[J].计算机科学与探索,2016,10(3):372-380. 被引量：13
4黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：20
5汪旭祥,韩斌,高瑞,陈鹏.基于改进TextRank的文本摘要自动提取[J].计算机应用与软件,2021,38(6):155-160. 被引量：12
6余珊珊,苏锦钿,李鹏飞.基于改进的TextRank的自动摘要提取方法[J].计算机科学,2016,43(6):240-247. 被引量：41
7叶雷,余正涛,高盛祥,刘书龙,张亚飞.多特征融合的汉越双语新闻摘要方法[J].中文信息学报,2018,32(12):84-91. 被引量：2
8高翔,张金登,许潇,冯剑红.基于LSTM-CRF的军事动向文本实体识别方法[J].指挥信息系统与技术,2020,11(6):91-95. 被引量：12
9冯鸾鸾,李军辉,李培峰,朱巧明.面向国防科技领域的技术和术语语料库构建方法[J].中文信息学报,2020,34(8):41-50. 被引量：19

二级参考文献49

1黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：20
2张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
3秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
4夏士雄,李文超,周勇,张磊,牛强.一种改进的k-means聚类算法(英文)[J].Journal of Southeast University(English Edition),2007,23(3):435-438. 被引量：16
5纪文倩,李舟军,巢文涵,陈小明.一种基于LexRank算法的改进的自动文摘系统[J].计算机科学,2010,37(5):151-154. 被引量：15
6张培颖.多特征融合的语句相似度计算模型[J].计算机工程与应用,2010,46(26):136-137. 被引量：19
7葛斌,李芳芳,李阜,肖卫东.基于无向图构建策略的主题句抽取[J].计算机科学,2011,38(5):181-185. 被引量：10
8罗文娟,马慧芳,何清,史忠植.权衡熵和相关度的自动摘要技术研究[J].中文信息学报,2011,25(5):9-16. 被引量：9
9李鹏,王斌,石志伟,崔雅超,李恒训.Tag-TextRank:一种基于Tag的网页关键词抽取方法[J].计算机研究与发展,2012,49(11):2344-2351. 被引量：56
10莫建文,郑阳,首照宇,张顺岚.改进的基于词典的中文分词方法[J].计算机工程与设计,2013,34(5):1802-1807. 被引量：40

共引文献109

1梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
2黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：20
3杜秀英.基于聚类与语义相似分析的多文本自动摘要方法[J].情报杂志,2017,36(6):167-172. 被引量：7
4王子璇,乐小虬,何远标.基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究[J].数据分析与知识发现,2017,1(4):1-8. 被引量：11
5关浩华.基于语音分析的智能质检关键词提取方法设计[J].自动化与仪器仪表,2017(7):106-108. 被引量：5
6杨毅.基于句子聚类的中文文本自动摘要算法的研究[J].微型电脑应用,2017,33(8):54-56. 被引量：1
7高永兵,杨贵朋,张娣,马占飞.基于突显词博文聚类的官微事件检测方法[J].数据分析与知识发现,2017,1(9):57-64. 被引量：2
8高永兵,杨贵朋,张娣.官方微博关键词提取与摘要技术研究[J].内蒙古科技大学学报,2017,36(3):273-279. 被引量：1
9何春辉,李云翔,王孟然,王梦贤.改进的TextRank双层单文档摘要提取算法[J].湖南城市学院学报（自然科学版）,2017,26(6):55-60. 被引量：3
10贾晓婷,王名扬,曹宇.结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究[J].数据分析与知识发现,2018,2(2):86-95. 被引量：18

1李倩岚,江言奇.新时代背景下中国航天新闻对外传播的叙事创新研究[J].东南传播,2023(10):63-67.
2刘勇,杜建强,罗计根,李清,于梦波,郑奇民.基于语义筛选的ALBERT-TextCNN中医文本多标签分类研究[J].现代信息科技,2023,7(19):123-128. 被引量：2
3焦李成.下一代人工智能与教育变革:挑战与机遇[J].在线学习,2023(12):40-41.
4吴义博.融媒体语境下科技新闻的创新报道实践分析——以中国军视网天舟六号直播为例[J].新闻研究导刊,2023,14(12):105-108.
5刘学磊,田艳艳.动态心电图对冠心病心肌缺血的诊断价值分析[J].中外医药研究,2023,2(26):150-152.
6陈璐,张儒清,郭嘉丰,范意兴.面向文本摘要的反事实纠偏方法[J].计算机学报,2023,46(11):2400-2415.
7《中国医学装备》杂志投稿指南[J].中国医学装备,2024,21(1):218-218.
8郝晓军,冯蕴天,李廷鹏,赵宏宇,钱苏敏.高维特征向量相似度计算方法研究[J].航天电子对抗,2023,39(6):30-34.
9李大伟,吴康,杨京东,任丽霜.井下柔性直流输电系统仿真研究[J].山西焦煤科技,2023,47(12):32-35.
10杨威,胡楠,符霏雯,杨铭超,宋凯伦,梁彩红.基于计算机辅助翻译技术的生物医学工程英语翻译研究[J].中国教育技术装备,2024(2):14-16.

北京航空航天大学学报

2024年第1期

浏览历史

内容加载中请稍等...

基于领域概念图的航天新闻自动摘要模型

参考文献9

二级参考文献49

共引文献109

相关作者

相关机构

相关主题

浏览历史