融合句义特征的多文档自动摘要算法研究被引量：3

Research on Multi-Document Summarization Merging the Sentential Semantic Features

下载PDF

导出

摘要研究是自然语言处理领域的关键问题之一,为使抽取的摘要更能体现多文档主题,本文在子主题划分的基础上,提出了一种融合句义特征的句子优化选择方法.该方法基于句义结构模型,提取句义结构中的话题、谓词等特征,并融合统计特征构造特征向量计算句子权重,最后采用综合加权选取法和最大边缘相关相结合的方法抽取摘要.选取不同主题的文本集进行实验和评价,在摘要压缩比为15%情况下,系统摘要平均准确率达到66.7%,平均召回率达到65.5%.实验结果表明句义特征的引入可以有效提升多文档摘要的效果. Multi-document summarization （MDS） is one of the key issues in the field of natural language processing. In order to extract compendious sentences to reflect more accurate theme of the multi-document, a new method was proposed to retrieve terse sentences. At first, some sentential semantic features （SSF）, for example topic and predicate, were extracted based on a sentential semantic model （SSM）. Then the sentence weight was calculated by building feature vector merging statistical features and SSF. Finally, sentences were extracted according to the feature weighting and maximal marginal relevance （MMR）. A set of experiment show that the new method is effective, the average precision rate of summary can reach 66. 7%, and the average recall rate can reach 65.5% when the compression ratio of summary is 15%. The results of experiments show that the SSF are effective on upgrading the affection of MDS.

作者罗森林白建敏潘丽敏韩磊孟强 LUO Shen-lin BAI Jian-min PAN Li-min HAN Lei MENG Qiang(School of Information and Electronics, Beijing Institute of Technology, Beijing 100081, China)

机构地区北京理工大学信息与电子学院

出处《北京理工大学学报》 EI CAS CSCD 北大核心 2016年第10期1059-1064,共6页 Transactions of Beijing Institute of Technology

基金国家"二四二"资助项目(2005C48) 北京理工大学科技创新计划重大项目培育专项资助项目(2011CX01015)

关键词多文档自动摘要句义结构模型句义特征自然语言处理 multi-document summarization sentential semantic model sentential semantic feature natural language processing

分类号 TP391 [自动化与计算机技术—计算机应用技术] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1韩永峰,许旭阳,李弼程,朱武斌,陈刚.基于事件抽取的网络新闻多文档自动摘要[J].中文信息学报,2012,26(1):58-66. 被引量：15
2罗森林,韩磊,潘丽敏,冯扬,刘盈盈.汉语句义结构模型及其验证[J].北京理工大学学报,2013,33(2):166-171. 被引量：10
3杨潇,马军,杨同峰,杜言琦,邵海敏.主题模型LDA的多文档自动文摘[J].智能系统学报,2010,5(2):169-176. 被引量：23
4徐永东,徐志明,王晓龙.基于信息融合的多文档自动文摘技术[J].计算机学报,2007,30(11):2048-2054. 被引量：27
5罗森林,刘盈盈,冯扬,韩磊,陈功,王倩.BFS-CTC汉语句义结构标注语料库构建方法[J].北京理工大学学报,2012,32(3):311-315. 被引量：10

二级参考文献73

1司联合.《概念层次网络理论》(HNC)述评[J].语言科学,2003,2(4):101-108. 被引量：2
2秦兵,刘挺,李生.基于局部主题判定与抽取的多文档文摘技术[J].自动化学报,2004,30(6):905-910. 被引量：10
3陈立民.汉语的时态和时态成分[J].语言研究,2002,22(3):14-31. 被引量：50
4苏海菊,王永成.中文科技文献文摘的自动编写[J].情报学报,1989,8(6):433-439. 被引量：26
5秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
6梁晗,陈群秀,吴平博.基于事件框架的信息抽取系统[J].中文信息学报,2006,20(2):40-46. 被引量：38
7卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：28
8赵世奇,刘挺,李生.一种基于主题的文本聚类方法[J].中文信息学报,2007,21(2):58-62. 被引量：24
9刘挺,车万翔,李生.基于最大熵分类器的语义角色标注[J].软件学报,2007,18(3):565-573. 被引量：73
10徐永东,徐志明,王晓龙,刘远超.中文文本时间信息获取及语义计算[J].哈尔滨工业大学学报,2007,39(3):438-442. 被引量：10

共引文献76

1梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
2周序生.改进的最小最大聚类方法在新闻主题来源追踪中的应用[J].湖南工业大学学报,2009,23(1):66-70.
3许荣华,吴刚,李培峰,朱巧明.基于指代消解的中文事件融合方法[J].计算机应用,2009,29(8):2264-2267. 被引量：3
4刘德喜,吴世汉,万常选.XML文本自动文摘研究综述[J].计算机应用研究,2009,26(11):4014-4018.
5纪文倩,李舟军,巢文涵,陈小明.一种基于LexRank算法的改进的自动文摘系统[J].计算机科学,2010,37(5):151-154. 被引量：15
6杨潇,马军,杨同峰,杜言琦,邵海敏.主题模型LDA的多文档自动文摘[J].智能系统学报,2010,5(2):169-176. 被引量：23
7刘茂福,李文捷,姬东鸿.基于事件项语义图聚类的多文档摘要方法[J].中文信息学报,2010,24(5):77-84. 被引量：6
8刘平峰,章佩璐,张军,余文艳.面向主题的Web信息融合模型[J].图书情报工作,2011,55(8):40-43. 被引量：6
9王萌,李春贵,徐超,何婷婷.主题与子事件发现的多文档自动文摘[J].计算机工程与应用,2011,47(18):130-134. 被引量：1
10王萌,徐超,李春贵,何婷婷.一种概念同现模型的多文档文摘研究[J].计算机工程与科学,2011,33(7):188-192.

同被引文献21

1王萌,何婷婷,姬东鸿,王晓荣.基于HowNet概念获取的中文自动文摘系统[J].中文信息学报,2005,19(3):87-93. 被引量：22
2吴晓锋,宗成庆.一种基于LDA的CRF自动文摘方法[J].中文信息学报,2009,23(6):39-45. 被引量：13
3徐晓丹.基于子主题和用户查询的多文档摘要系统[J].计算机系统应用,2011,20(3):112-115. 被引量：5
4王李进,尹义龙,钟一文.逐维改进的布谷鸟搜索算法[J].软件学报,2013,24(11):2687-2698. 被引量：89
5张永韡,汪镭,吴启迪.动态适应布谷鸟搜索算法[J].控制与决策,2014,29(4):617-622. 被引量：72
6刘娜,路莹,唐晓君,李明霞.基于LDA重要主题的多文档自动摘要算法[J].计算机科学与探索,2015,9(2):242-248. 被引量：11
7高岭,申元,高妮,雷艳婷,孙骞.基于文本挖掘的漏洞信息聚类分析[J].东南大学学报（自然科学版）,2015,45(5):845-850. 被引量：3
8李峰,黄金柱,李舟军,杨伟铭.使用关键词扩展的新闻文本自动摘要方法[J].计算机科学与探索,2016,10(3):372-380. 被引量：14
9郭海蓉,张晖,赵旭剑,李波,杨春明.基于增量图聚类的动态多文档摘要算法[J].计算机应用研究,2016,33(7):2034-2038. 被引量：2
10宁建飞,刘降珍.融合Word2vec与TextRank的关键词抽取研究[J].现代图书情报技术,2016(6):20-27. 被引量：67

引证文献3

1明拓思宇,陈鸿昶,黄瑞阳,柳杨.基于加权AMR图的语义子图预测摘要算法[J].计算机工程,2018,44(10):292-297. 被引量：4
2唐晓波,顾娜,谭明亮.基于句子主题发现的中文多文档自动摘要研究[J].情报科学,2020,38(3):11-16. 被引量：8
3周诗源,王英林.基于布谷鸟搜索优化算法的多文档摘要方法[J].计算机工程,2020,46(7):58-64. 被引量：4

二级引证文献16

1陈鸿昶,明拓思宇,刘树新,高超.基于整数线性规划重构抽象语义图结构的语义摘要算法[J].电子与信息学报,2019,41(7):1674-1681. 被引量：3
2殷明明,史小静,俞鸿飞,段湘煜.基于对比注意力机制的跨语言句子摘要系统[J].计算机工程,2020,46(5):86-93. 被引量：8
3胡晶.基于MapReduce改进密度峰值大数据搜索研究[J].电子制作,2020,28(21):93-95.
4许柏炎,蔡瑞初,梁智豪.一种用于代码注释自动生成的语法辅助复制机制[J].计算机工程,2021,47(4):92-99. 被引量：3
5胡晶.基于Spark SQL的海量数据实时分类查询算法的研究[J].黄河科技学院学报,2021,23(5):35-38. 被引量：3
6滕春娥,何春雨.在线医疗社区用户画像构建与应用[J].图书情报工作,2021,65(12):147-154. 被引量：17
7梁梦英,李德玉,王素格,廖健,郑建兴,陈千.Senti-PG-MMR:多文档游记情感摘要生成方法[J].中文信息学报,2022,36(3):128-135. 被引量：3
8彭虎,李源汉,邓长寿,吴志健.多策略调和的布谷鸟搜索算法[J].计算机工程,2022,48(8):85-97. 被引量：4
9崔骥,张金鹏,包舟,丁晟春.基于趋势度分析的科技领域核心主题发展预测[J].数据分析与知识发现,2022,6(9):1-13.
10王宇晗,林民,李艳玲,赵佳鹏.基于BERT的嵌入式文本主题模型研究[J].计算机工程与应用,2023,59(1):169-179. 被引量：6

1刘德喜,何炎祥,姬东鸿,杨华.基于基本要素向量空间的英文多文档自动摘要[J].计算机工程,2007,33(14):166-167. 被引量：2
2罗毅辉,熊曙初.一种集成框架下的分布式多文档自动摘要方法[J].情报杂志,2013,32(11):133-136. 被引量：3
3张晗,罗森林,邹丽丽,石秀民.融合句义分析的跨文本人名消歧[J].浙江大学学报（工学版）,2015,49(4):717-723. 被引量：1
4林萌,罗森林,贾丛飞,韩磊,原玉娇,潘丽敏.融合句义结构模型的微博话题摘要算法[J].浙江大学学报（工学版）,2015,49(12):2316-2325. 被引量：5
5刘茂福,余博,胡慧君.基于维基百科的多文档自动摘要系统研究[J].微型机与应用,2011,30(16):89-91.
6刘娜,路莹,唐晓君,李明霞.基于LDA重要主题的多文档自动摘要算法[J].计算机科学与探索,2015,9(2):242-248. 被引量：11
7仇丽青,李伟明.上下文敏感的多文档自动摘要生成方法[J].计算机工程,2010,36(21):265-266.
8罗森林,王倩,刘莉莉,韩磊.融合C4.5与SVM算法的汉语句义类型识别方法[J].北京理工大学学报,2012,32(10):1036-1041. 被引量：1
9熊娇,王明文,李茂西,万剑怡.基于词项—句子—文档三层图模型的多文档自动摘要[J].中文信息学报,2014,28(6):201-207. 被引量：6
10蔡月红,朱倩,程显毅,杨天明.基于句义三维模型的汉语句子相似度计算[J].广西师范大学学报（自然科学版）,2009,27(1):153-156.

北京理工大学学报

2016年第10期

浏览历史

内容加载中请稍等...

融合句义特征的多文档自动摘要算法研究被引量：3

参考文献5

二级参考文献73

共引文献76

同被引文献21

引证文献3

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

融合句义特征的多文档自动摘要算法研究 被引量：3

参考文献5

二级参考文献73

共引文献76

同被引文献21

引证文献3

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

融合句义特征的多文档自动摘要算法研究被引量：3