基于LDA重要主题的多文档自动摘要算法被引量：11

Multi-Document Summarization Algorithm Based on Significance Topic of LDA

下载PDF

导出

摘要提出了基于LDA(latent Dirichlet allocation)重要主题的多文档自动摘要算法。该算法与已有的基于主题模型的多文档自动摘要算法主要有两点区别:第一,在计算句子主题与文档主题相似度问题上,引入并定义了主题重要性的概念,将LDA模型建立的主题分成重要和非重要主题两类,计算句子权重时重点考虑句子主题和文档重要主题的相似性;第二,该方法同时使用句子的词频、位置等统计特征和LDA特征组成的向量计算句子的权重,既突出了传统的统计特征的显著优势,又结合了LDA模型的主题概念。实验表明,该算法在DUC2002标准数据集上取得了较好的摘要效果。 This paper proposes a multi-document summarization algorithm based on significance topic of LDA （latent Dirichlet allocation） model. There are two differences between this algorithm and other algorithms based on LDA model. Firstly, this algorithm gives the definition of significant topic, divides topic into significance topic and insig- nificance topic, calculates similarity between sentence and document using significance topic. Secondly, beside topic characteristics, this algorithm also considers some statistics characteristics, such as term frequency, sentence position, sentence length, etc. This algorithm not only highlights the advantages of statistics characteristics, but also cooperates with LDA topic model. The experiments show that the proposed algorithm achieves better performance compared to the other state-of-the-art algorithms on DUC2002 corpus.

作者刘娜路莹唐晓君李明霞

机构地区大连工业大学信息科学与工程学院

出处《计算机科学与探索》 CSCD 北大核心 2015年第2期242-248,共7页 Journal of Frontiers of Computer Science and Technology

基金国家自然科学基金大连市科学技术基金~~

关键词多文档摘要主题模型重要主题 multi-document summarization topic model significance topic

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1张小平,周雪忠,黄厚宽,冯奇,陈世波,焦宏官.一种改进的LDA主题模型[J].北京交通大学学报,2010,34(2):111-114. 被引量：47
2徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：233
3He Tingting,Li Fang.Semantic Knowledge Acquisition from Blogs with Tag-Topic Model[J].China Communications,2012,9(3):38-48. 被引量：3
4张晨逸,孙建伶,丁轶群.基于MB-LDA模型的微博主题挖掘[J].计算机研究与发展,2011,48(10):1795-1802. 被引量：165
5张小平,周雪忠,黄厚宽,冯奇,陈世波.基于词相似性与CRP的主题模型[J].模式识别与人工智能,2010,23(1):72-76. 被引量：8
6杨潇,马军,杨同峰,杜言琦,邵海敏.主题模型LDA的多文档自动文摘[J].智能系统学报,2010,5(2):169-176. 被引量：23

二级参考文献164

1秦兵,刘挺,李生.基于局部主题判定与抽取的多文档文摘技术[J].自动化学报,2004,30(6):905-910. 被引量：10
2Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation. Journal of Machine Learning Research, 2003, 3 : 993 - 1022.
3Griffiths T L, Steyvers M. A Probabilistic Approach to Semantic Representation// Proc of the 24th Annual Conference of the Cognitive Science Society. Fairfax, USA, 2002 : 381 - 386.
4Griffiths T L, Steyvers M. Prediction and Semantic Association//Becket S, Thrun S, Obermayer K, eds. Advance in Neural Information Processing Systems. Cambridge, USA: MIT Press, 2003, 15:11-18.
5Griffiths T L, Steyvers M. Finding Scientific Topics. Proc of the National Academy of Science, 2004, 101 ( Z1 ) : 5228 - 5235.
6Hofmann T. Probabilistic Latent Semantic Analysis// Proc of the 15th Conference on Uncertainty in Artificial Intelligence. Stockholm, Sweden, 1999 : 289 - 296.
7Hofmann T. Probabilistic Latent Semantic Indexing//Proc of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Berkeley, USA, 1999:50-57.
8Hofmann T. Unsupervised Learning by Probabilistic Latent Semantic Analysis. Machine Learning. 2001, 42(1/2) : 177 - 196.
9Banerjee S, Pedersen T. The Design, Implementation and Use of the Ngram Statistics Package//Proc of the 4th International Conference on Intelligent Text Processing and Computational Linguistics. Mexico, Mexico, 2003 : 370 - 381.
10Nigam K, McCallum A, Thrun S. et al. Text Classification from Labeled and Unlabeled Documents Using EM. Machine Learning, 2000, 39(2/3) : 103 - 134.

共引文献443

1许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：3
2刘娜,肖智博,路莹,唐晓君,肖鹏.自适应主题融合的多文档自动摘要算法[J].中南大学学报（自然科学版）,2013,44(S2):205-209.
3姜晓伟,王建民,丁贵广.基于主题模型的微博重要话题发现与排序方法[J].计算机研究与发展,2013,50(S1):179-185. 被引量：12
4杨冀林.基于主题模型的图像分割技术研究[J].计算机仿真,2011,28(12):300-303. 被引量：1
5潘大胜,覃焕昌.区域活动模型彩色图像分割研究[J].计算机仿真,2012,29(2):277-280.
6罗辉停.基于CRP模型的评论热点挖掘研究修正版[J].技术与创新管理,2012,33(2):166-169. 被引量：3
7汤雁冰.氧化铜铁矿石中伴生金银的回收[J].有色矿山,2000,29(3):28-31. 被引量：2
8阳小兰,钱程.基于主题提取和记忆模型的新闻推荐系统设计[J].计算机与数字工程,2012,40(6):47-50. 被引量：1
9孙晓莹,李大展,王水.国内微博研究的发展与机遇[J].情报杂志,2012,31(7):25-33. 被引量：11
10周亦鹏,杜军平.基于时空情境模型的主题跟踪[J].华南理工大学学报（自然科学版）,2012,40(8):82-87. 被引量：1

同被引文献53

1韩鹏宇,高盛祥,余正涛,黄于欣,郭军军.基于案件要素指导的涉案舆情新闻文本摘要方法[J].中文信息学报,2020,34(5):56-63. 被引量：6
2周涛,柏文洁,汪秉宏,刘之景,严钢.复杂网络研究概述[J].物理,2005,34(1):31-36. 被引量：235
3潘灶烽,汪小帆,李翔.可变聚类系数无标度网络上的谣言传播仿真研究[J].系统仿真学报,2006,18(8):2346-2348. 被引量：86
4刘常昱,胡晓峰,司光亚,罗批.基于小世界网络的舆论传播模型研究[J].系统仿真学报,2006,18(12):3608-3610. 被引量：80
5马慧芳,祁云平,杨小东.一种基于文本关系图的多文档自动摘要技术[J].情报杂志,2007,26(3):67-69. 被引量：7
6Fang Jinqing.Theoretical research progress in complexity of complex dynamical networks[J].Progress in Natural Science:Materials International,2007,17(7):761-774. 被引量：18
7刘常昱,胡晓峰,罗批,司光亚.基于不对称人际影响的舆论涌现模型研究[J].系统仿真学报,2008,20(4):990-992. 被引量：31
8周进华,刘贵全.基于衰减词共现图的多文档摘要研究[J].小型微型计算机系统,2009,30(1):173-177. 被引量：4
9施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
10杨潇,马军,杨同峰,杜言琦,邵海敏.主题模型LDA的多文档自动文摘[J].智能系统学报,2010,5(2):169-176. 被引量：23

引证文献11

1李舒嫒,杨静,顾君忠.基于网站层次结构和主题模型LDA的网站自动摘要[J].计算机工程,2017,34(4):207-211. 被引量：1
2刘家益,李鲡瑶,张智雄,邹益民.关键词和被引次数对科技论文自动摘要效果影响研究[J].情报学报,2017,36(11):1165-1174. 被引量：6
3孙更新,宾晟.多关系社交网络中基于兴趣匹配的网络舆情传播模型[J].中国科学技术大学学报,2018,48(9):730-738. 被引量：7
4陶兴,张向先,郭顺利,张莉曼.学术问答社区用户生成内容的W2V-MMR自动摘要方法研究[J].数据分析与知识发现,2020,4(4):109-118. 被引量：8
5周诗源,王英林.基于布谷鸟搜索优化算法的多文档摘要方法[J].计算机工程,2020,46(7):58-64. 被引量：4
6韩鹏宇,余正涛,高盛祥,黄于欣,郭军军.案件要素句子关联图卷积的案件舆情摘要方法[J].软件学报,2021,32(12):3829-3838. 被引量：3
7王红斌,金子铃,毛存礼.结合层级注意力的抽取式新闻文本自动摘要[J].计算机科学与探索,2022,16(4):877-887. 被引量：5
8卢天旭.基于压缩空间句子选择的涉案新闻话题摘要[J].通信技术,2022,55(9):1136-1145.
9郭继峰,费禹潇,孙文博,谢培浇,张健.一种融合主题的PGN-GAN文本摘要模型[J].小型微型计算机系统,2023,44(1):199-203.
10李刚,余正涛,黄于欣.案件要素异构图的舆情新闻抽取式摘要[J].计算机工程与应用,2023,59(4):112-119.

二级引证文献35

1李程.基于复杂社交网络的企业舆情传播及对策探讨[J].新闻传播,2019(16):119-120.
2吴蕾,梁晓贺,宋红燕.基于超网络的科技论文关键词关联分析[J].情报学报,2020,39(3):253-258. 被引量：5
3赵洪.生成式自动文摘的深度学习方法综述[J].情报学报,2020,39(3):330-344. 被引量：12
4黄勃,陈欢,方志军,王明胜,刘文竹.基于微博的COVID-19热点话题分析[J].武汉大学学报（理学版）,2020,66(5):425-432. 被引量：6
5胡晶.基于MapReduce改进密度峰值大数据搜索研究[J].电子制作,2020,28(21):93-95.
6陈小永.基于最优学习的社交网络JPEG图像敏感数据挖掘方法[J].佳木斯大学学报（自然科学版）,2020,38(6):134-137. 被引量：3
7王晓,李纲,毛进,叶光辉.突发事件舆情观点识别与分析研究评述[J].图书情报知识,2021(1):93-102. 被引量：5
8李明,李莹,周庆,王君.基于TF-PIDF的网络问答社区中的知识供需研究[J].数据分析与知识发现,2021,5(2):106-115. 被引量：4
9余传明,郭亚静,朱星宇,安璐.基于最大边界相关度的抽取式文本摘要模型研究[J].情报科学,2021,39(2):34-43. 被引量：7
10胡晶.基于Spark SQL的海量数据实时分类查询算法的研究[J].黄河科技学院学报,2021,23(5):35-38. 被引量：2

1刘晟,王振兴,李申堂.移动Agent的安全威胁及其对策[J].网络安全技术与应用,2001(3):15-18. 被引量：1
2强哥的报告说了我们将迈向人工智能时代[J].传感器与微系统,2017,36(4).
3张瑾.旅行如何选择高性价比酒店[J].理财（市场版）,2014(1):94-95.
4罗毅辉,熊曙初.一种集成框架下的分布式多文档自动摘要方法[J].情报杂志,2013,32(11):133-136. 被引量：3
5刘德喜,何炎祥,姬东鸿,杨华.基于基本要素向量空间的英文多文档自动摘要[J].计算机工程,2007,33(14):166-167. 被引量：2
6廉站俊,吕学强,张玉杰,施水才.基于句子相似度计算的信息抽取[J].现代图书情报技术,2007(6):38-41. 被引量：4
7刘茂福,余博,胡慧君.基于维基百科的多文档自动摘要系统研究[J].微型机与应用,2011,30(16):89-91.
8牛金露.我们到底能拿新技术做什么[J].浙商,2016,0(3):22-25.
9邵洲,张晖.基于完全稀疏主题模型的多文档自动摘要[J].计算机工程与设计,2014,35(3):1032-1036. 被引量：1
10宋俊,韩啸宇,黄宇,黄廷磊,付琨.一种面向实体的演化式多文档摘要生成方法[J].广西师范大学学报（自然科学版）,2015,33(2):36-41. 被引量：2

计算机科学与探索

2015年第2期

浏览历史

内容加载中请稍等...

基于LDA重要主题的多文档自动摘要算法被引量：11

参考文献6

二级参考文献164

共引文献443

同被引文献53

引证文献11

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于LDA重要主题的多文档自动摘要算法 被引量：11

参考文献6

二级参考文献164

共引文献443

同被引文献53

引证文献11

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于LDA重要主题的多文档自动摘要算法被引量：11