主题信息的中文多文档自动文摘系统被引量：5

Chinese multi-document summarization system based on topic information

下载PDF

导出

摘要多文档自动文摘能够帮助人们自动、快速地获取信息,使用主题模型构建多文档自动文摘系统是一种新的尝试,其中主题模型采用浅层狄利赫雷分配(LDA)。该模型是一个多层的产生式概率模型,能够检测文档中的主题分布。使用LDA为多文档集合建模,通过计算句子在不同主题上的概率分布之间的相似度作为句子的重要度,并根据句子重要度进行文摘句的抽取。实验结果表明,该方法所得到的文摘性能优于传统的文摘方法。 Multi-document summarization can help people access to information automatically and fast. Chinese multi-document summarization based on topic model is a new attempt. The LDA （Latent Dirichlet Allocation） model is a multi-level generative probabilistic model, can detect the topic distribution of the document. In the method, it models the document using LDA, then calculates the distance between a sentence and the given multi-documents via their topic probability distributions as the weight of the sentence. The paper extracts sentences according to the weight of the sentence. Experimental results show that the performance is a clear superiority over the traditional method under the proposed evaluation scheme.

作者王红玲张明慧周国栋

机构地区苏州大学计算机科学与技术学院苏州大学江苏省计算机信息处理技术重点实验室

出处《计算机工程与应用》 CSCD 2012年第25期132-136,共5页 Computer Engineering and Applications

基金国家自然科学基金(No.60873150) 江苏省高校自然科学重大基础研究项目(No.08KJA520002)

关键词中文自动文摘浅层狄利赫雷分配(LDA) 主题模型多文档 automatic document summarization Latent Dirichlet Allocation（LDA） topic model multi-document

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1Radev D R, Mckeovwn K R.Generating natural languages summaries from multiple on-line sources[J].Computational Linguistics, 1998,24 (3) : 21-29.
2Lin C Y, Hovy E.From single to multi-document sum- marization: a prototype system and its evaluation[C]// Proceedings of the 40th Annual Meeting of the Associa- tion for Computational Linguistics.Philadelphia: ACL, 2002 : 457-464.
3Arora R.Latent Dirichlet allocation based multi-document summarization[C]//Proceedings of the 2nd Workshop on Analytics for Noisy Unstructured Text Data,2008:91-97.
4Bhandari H, Shimbo M, Ito T, et al.Generic text summa- rization using probabilistic latent semantic indexing[C]// Proceedings of IJCNLP, 2008:133-140.
5吴晓锋,宗成庆.一种基于LDA的CRF自动文摘方法[J].中文信息学报,2009,23(6):39-45. 被引量：13
6王萌,李春贵,唐培和,王晓荣.一种主题句发现的中文自动文摘研究[J].计算机工程,2007,33(8):180-181. 被引量：8
7徐永东,徐志明,王晓龙.基于信息融合的多文档自动文摘技术[J].计算机学报,2007,30(11):2048-2054. 被引量：27
8秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
9Gong Yihong, Liu Xin.Generic text summarization using relevance measure and latent semantic analysis[C]// Proceedings of ACM SIGIR, Louisiana, USA, Sep, 2001 : 19-25.
10Blei D M,Ng A Y,Jordan M I.Latent Dirichlet alloca- tion[J].Journal of Machine Learning Research, 2003,3 993-1022.

二级参考文献81

1苏海菊,王永成.中文科技文献文摘的自动编写[J].情报学报,1989,8(6):433-439. 被引量：25
2张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
3秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
4徐永东,徐志明,王晓龙,刘远超.中文文本时间信息获取及语义计算[J].哈尔滨工业大学学报,2007,39(3):438-442. 被引量：10
5吴岩,李秀坤.自动文摘基集语句的提取与润色的数学模型[J].计算机应用研究,2007,24(5):52-55. 被引量：2
6HP Luhn. The Automatic Creation of Literature Abstracts[J]. IBM Journal of Research and Development, 1958, 2(2): 159-165.
7D.R. Radev, E. Hovy and K. McKeown. Introduction to the Special Issue on Summarization[J]. Computational Linguistics, 2002, 28(4): 399-408.
8Xiaofeng Wu, Chengqing Zong. A New Approach to Automatic Document Summarization[C]//International Joint Conference of Natural Language Processing, 2008: 126-132.
9J.Y. Yeh, H.R. Ke, W.P. Yang, andI. H. Meng. Text summarization using trainable summarizer and latent semantic analysis[J]. IPM, 2005, 41(1): 75-95.
10Hal Daum'e III, and D. Marcu. Bayesian Query- Focused Summarization[C]//ACL, 2006.

共引文献90

1刘茂福,李淑君,金可佳,张晓龙.多文档自动文摘中的特征组合优化[J].计算机系统应用,2008,17(8):59-63. 被引量：3
2何忠育,王勇,王瑛,陈新,廖朝辉.基于分布式计算的网络舆情分析系统的设计[J].警察技术,2010(3):19-22. 被引量：6
3刘德喜,何炎祥,姬东鸿,杨华.一种基于演化算法进行句子抽取的多文档自动摘要系统SBGA[J].中文信息学报,2006,20(6):46-53. 被引量：10
4刘美茹.计算机对文章意义段划分的研究[J].计算机工程,2007,33(13):205-206. 被引量：1
5索红光,梁玉环,刘玉树.基于时间戳的多文档自动文摘[J].计算机工程,2007,33(16):164-165. 被引量：3
6宋人杰,曹振丽,顾宁.站内搜索系统动态摘要算法的研究[J].计算机工程与设计,2008,29(5):1303-1304.
7张瑾,王小磊,许洪波.自动文摘评价方法综述[J].中文信息学报,2008,22(3):81-88. 被引量：12
8蒋效宇,樊孝忠,陈康.用于多文档文摘句排序的改进MO算法[J].华南理工大学学报（自然科学版）,2008,36(9):43-47. 被引量：2
9周进华,刘贵全.基于衰减词共现图的多文档摘要研究[J].小型微型计算机系统,2009,30(1):173-177. 被引量：4
10仇丽青,刘瑞,张辉.基于词频统计的多文档自动摘要生成方案[J].微计算机信息,2009,25(6):181-182. 被引量：4

同被引文献118

1邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
2秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
3陈基漓,牛秦洲.基于特征码的网页去重[J].微计算机信息,2006,22(03X):113-115. 被引量：11
4罗智勇,宋柔.现代汉语通用分词系统中歧义切分的实用技术[J].计算机研究与发展,2006,43(6):1122-1128. 被引量：19
5傅间莲,陈群秀.一种新的自动文摘系统评价方法[J].计算机工程与应用,2006,42(18):176-177. 被引量：8
6郝雨.回归本义的“新闻价值”研究[J].上海大学学报（社会科学版）,2006,13(6):69-74. 被引量：29
7黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
8黄丽琼,何中市,张杰慧.基于文本相似度的自动文摘评价方法[J].计算机应用研究,2007,24(8):97-99. 被引量：9
9Arackal N,Dhanya P. A survey on existing extractive text summa-rization techniques [ EB/OL ]. [ 2014 -07 -05]. http://csidl.org/ xmlui/bitstream/handle/123456789/671/7. PDF? sequence=1.
10Sparck Jones K. Automatic summarising; The state of the art[ J ].Information Processing & Management, 2007,43 (6): 1449 -1481.

引证文献5

1刘江鸣,徐金安,张玉洁.基于隐主题马尔科夫模型的多特征自动文摘[J].北京大学学报（自然科学版）,2014,50(1):187-193. 被引量：4
2王连喜.自动摘要研究中的若干问题[J].图书情报工作,2014,58(20):13-22. 被引量：7
3郭艳卿,赵锐,孔祥维,付海燕,蒋金平.基于事件要素加权的新闻摘要提取方法[J].计算机科学,2016,43(1):237-241. 被引量：8
4谭红叶,赵红红,李茹.面向阅读理解复杂问题的句子融合[J].中文信息学报,2017,31(1):8-16. 被引量：3
5李纲,徐伟,王馨平.基于事件要素的组合模型微博热点事件摘要提取[J].图书情报工作,2018,62(1):96-105. 被引量：5

二级引证文献26

1那勇,李明全.基于深度学习的中文自动分词研究[J].吉林广播电视大学学报,2019(12):58-59.
2曹洋,成颖,裴雷.基于机器学习的自动文摘研究综述[J].图书情报工作,2014,58(18):122-130. 被引量：16
3刘天祎,步一,赵丹群,黄文彬.自动引文摘要研究述评[J].现代图书情报技术,2016(5):1-8. 被引量：3
4高永兵,王宇,马占飞.基于CR-PageRank算法的个人事件自动摘要研究[J].计算机工程,2016,42(11):64-69. 被引量：3
5谭红叶,赵红红,李茹.面向阅读理解复杂问题的句子融合[J].中文信息学报,2017,31(1):8-16. 被引量：3
6高永兵,杨贵朋,张娣.官方微博关键词提取与摘要技术研究[J].内蒙古科技大学学报,2017,36(3):273-279. 被引量：1
7刘海静.机器阅读理解软件中答案相关句的抽取算法研究[J].软件工程,2017,20(10):14-16.
8陆娜,周鹏程,武川.新闻文档实体重要性排序研究[J].图书情报工作,2018,62(11):97-102. 被引量：1
9何喜军,马珊,武玉英,蒋国瑞.多特征融合下在线技术转移平台供需匹配研究——以京津冀区域数据为例[J].情报杂志,2019,38(6):174-181. 被引量：8
10应毅,黄慧,刘定一.基于PageRank的热点发现混合算法研究[J].计算机技术与发展,2019,29(9):81-85. 被引量：3

1蒋效宇,樊孝忠,陈康.基于用户查询的中文自动文摘研究[J].计算机工程与应用,2008,44(5):48-50. 被引量：3
2王红玲,周国栋,朱巧明.面向冗余度控制的中文多文档自动文摘[J].中文信息学报,2012,26(2):92-96. 被引量：6
3林莉媛,王中卿,李寿山,周国栋.基于PageRank的中文多文档文本情感摘要[J].中文信息学报,2014,28(2):85-90. 被引量：18
4董小国,甘立国.基于句子重要度的特征项权重计算方法[J].计算机与数字工程,2006,34(8):35-37. 被引量：2
5胡珀,何婷婷,姬东鸿.基于主题区域发现的中文自动文摘研究[J].计算机科学,2005,32(1):177-181. 被引量：5
6张清军,朱才连.基于LBS的中文自动文摘技术研究[J].四川大学学报（工程科学版）,2004,36(4):99-102. 被引量：1
7段雪莹,王阳.基于遗传算法的中文多文档自动摘要方法研究[J].科技信息,2010(35). 被引量：1
8叶星火,胡珀,张小鹏.基于特征信息提取的中文自动文摘方法[J].计算机应用与软件,2008,25(5):31-32. 被引量：3
9王萌,何婷婷,姬东鸿,王晓荣.基于HowNet概念获取的中文自动文摘系统[J].中文信息学报,2005,19(3):87-93. 被引量：22
10徐晓丹.基于半监督学习的中文多文档子主题划分[J].浙江师范大学学报（自然科学版）,2011,34(3):302-305. 被引量：1

计算机工程与应用

2012年第25期

浏览历史

内容加载中请稍等...

主题信息的中文多文档自动文摘系统被引量：5

参考文献12

二级参考文献81

共引文献90

同被引文献118

引证文献5

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

主题信息的中文多文档自动文摘系统 被引量：5

参考文献12

二级参考文献81

共引文献90

同被引文献118

引证文献5

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

主题信息的中文多文档自动文摘系统被引量：5