基于主题区域发现的中文自动文摘研究被引量：5

A Study of Chinese Text Summarization Based on Thematic Area Discovery

下载PDF

导出

摘要自动文摘是自然语言处理领域的一项重要的研究课题。文中提出了一种基于主题区域发现的中文自动文摘的方法。该方法的特色在于:产生的文摘能在尽可能全面地覆盖全文多个主题的同时,显著地缩减自身的冗余,从而能有效地平衡两者之间的矛盾。通过采用K-medoids的聚类算法联同新的自定义目标函数的聚类分析方法,实现了段落自适应聚类下的文本潜在主题区域的发现及其在自动文摘领域的应用。此外,一种基于表达熵的新的评价因子被用来评价摘要的冗余。实验结果验证了该方法的可行性,有效性,是对中文自动文摘研究的一种有意义的探索。 Automatic summarization is an important issue in Natural Language Processing. This paper has proposed a special method that creates text summary by discovering thematic areas from Chinese text. The specificity of the method is that the created summary can both cover as many as different themes and reduce its redundancy obviously at the same time. And the discovery of latent thematic areas under the adaptive clustering of passages is realized by adopting k-medoids clustering method as well as a novel clustering analysis method based on self-defined objective function. In addition, a novel parameter,which is known as representation entropy,is used for summarization redun- dancy evaluation. Experimental results indicate that this method is effective and efficient in the automatic summariza- tion literature.

作者胡珀何婷婷姬东鸿

机构地区华中师范大学计算机科学与技术系新加坡国立信息通信研究院

出处《计算机科学》 CSCD 北大核心 2005年第1期177-181,共5页 Computer Science

基金中国国家语言文字应用委员会"十五"国家语委应用项目基金(ZDI105-43B) 湖北省自然科学基金(2001ABB012)

关键词主题区域发现中文自动文摘聚类分析表达熵文本检索 Automatic summarization Thematic area discovery Clustering analysis Representation entropy

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1杨晓兰,钟义信.基于文本理解的自动文摘系统研究与实现[J].电子学报,1998,26(7):155-158. 被引量：17
2王继成,武港山,周源远,张福炎.一种篇章结构指导的中文Web文档自动摘要方法[J].计算机研究与发展,2003,40(3):398-405. 被引量：43
3刘建舟何婷婷姬东鸿.基于开放式语料的汉语术语的自动抽取[A]..第二十届东方语言计算机处理国际学术会议论文集[C].,2003.43-49.
4Nomoto T,Matsumoto Yuji. A New Approach to Unsupervised Text Summarization. In :Proc. of ACM SIGIR'01,2001. 26～34
5Gong Yihong, Liu Xin. Generic Text Summarization Using Relevance Measure and Latent Semantic Analysis. In: Proc. of ACM SIGIR'01,2001.19～25
6Pantel P, Lin Dekang. Document Clustering with Committees.In:Proc. of ACM SIGIR'02,2002. 199～206
7Mitra P, Murthy C A,Pal S K. Unsupervised Feature Selection Using Feature Similarity. IEEE Transactions of Pattern Analysis and Machine Intelligence, 2002. 1～ 13
8MANI I. Summarization Evaluation: An Overview. In: Proc. of the NTCIR Workshop 2 Meeting on Evaluation of Chinese and Japanese Text Retrieval and Text Summarization. Tokyo: National Institute of Informatics, 2001
9MANI I. Recent Developments in Text Summarization. In:Proc.of CIKM'01,2001:529～531
10Kaufmann L, Rousseeuw P J. Clustering by means of medoids.In Statistical Data Analysis based on the L1 Norm. In:Dodge Y,ed. Amsterdam, 1987. 405～416

二级参考文献10

1王建波，中文信息学报，1992年，6卷，2期
2陈永明，现代认知心理学.人的信息加工，1989年
3钟义信，信息科学原理，1988年
4J Kupiec. J Pedersen et al. A trainable document summarizer. In: Proc of the 18th Annual Int'l ACM SIGIR Conf on Research and Development in Information Retrieval (SIGIR'95). Seattle, Washington, USA: ACM Press, 1995. 68～73
5R Brandow, K Mitze, L F Rau. Automatic condensation of electronic publication by sentence selection. Information Processing and Management, 1995, 34(5): 575～685
6吴岩,刘挺,王开铸,陈彬.中文自动文摘原理与方法探索[J].中文信息学报,1998,12(2):8-16. 被引量：20
7孙春葵,李蕾,杨晓兰,钟义信.基于知识的文本摘要系统研究与实现[J].计算机研究与发展,2000,37(7):874-881. 被引量：19
8王继成,萧嵘,孙正兴,张福炎.Web信息检索研究进展[J].计算机研究与发展,2001,38(2):187-193. 被引量：118
9王文欣,黄萱菁,吴立德.基于统计方法的汉语自动文摘系统研究[J].计算机应用与软件,2000,17(9):28-33. 被引量：12
10张波,王继成,王强,张福炎.Web文档清洗技术[J].计算机科学,2002,29(6):52-54. 被引量：3

共引文献58

1兰东俊,朱精南.网页视图的重构与转化[J].计算机应用,2003,23(z2):158-159. 被引量：1
2金旭,杨炳儒,菅志刚.自动文摘方法分析[J].计算机应用研究,2004,21(9):5-6. 被引量：8
3钟义信.知识论框架通向信息-知识-智能统一的理论[J].中国工程科学,2000,2(9):50-64. 被引量：34
4陈志敏,沈洁,林颖,周峰.基于主题划分的网页自动摘要[J].计算机应用,2006,26(3):641-644. 被引量：8
5赵晶,林鸿飞,卢冶.可视化文本分类树浏览机制[J].小型微型计算机系统,2006,27(3):524-528. 被引量：1
6张云涛,龚玲,王永成.基于综合方法的文本主题句的自动抽取[J].上海交通大学学报,2006,40(5):771-774. 被引量：16
7付克志,林鸿飞.基于N-Level VSM在Web信息检索中的研究[J].计算机工程与应用,2006,42(19):158-160. 被引量：3
8梁循,陈华.在中文学术论文集eBook中生成作者单位索引的方法[J].电脑开发与应用,2006,19(8):55-57.
9谈文蓉,杨宪泽,谈进.基于相似分类的文献理解及自动文摘系统研究[J].计算机科学,2006,33(9):152-154. 被引量：2
10胡思康,曹元大.Web网页知识获取技术[J].北京理工大学学报,2006,26(12):1065-1068. 被引量：4

同被引文献31

1傅向华,马兆丰,何明,冯博琴.一种个性化的主题提取和层次发现算法[J].西安交通大学学报,2005,39(2):119-122. 被引量：5
2金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80
3王萌,何婷婷,姬东鸿,王晓荣.基于HowNet概念获取的中文自动文摘系统[J].中文信息学报,2005,19(3):87-93. 被引量：22
4刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
5杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：192
6傅间莲,陈群秀.基于规则和统计的中文自动文摘系统[J].中文信息学报,2006,20(5):10-16. 被引量：21
7钱爱兵.基于RSS的Web新闻主题聚合系统的设计与实现[J].现代图书情报技术,2007(4):56-61. 被引量：12
8Gong Y, Liu X. Generic Text Summarization Using Relevance Measure and Latent Semantic Analysis[C]//Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New Orleans, Louisiana, USA: [s. n.], 2001.
9Yaari, Yaacov. Segmentation of Expository Texts by Hierarchical Agglomerative Clustering[C]//Proceedings of the RANLP'97. Tzigov Chark, Bulgaria: [s. n.], 1997.
10Mani I. Summarization Evaluation: An Over Overview[C]// Proceedings of the NTCIR Workshop Evaluation of Chinese and Japanese Text Retrieval and Text Summarization. Tokyo, Japan: National Institute of Informatics, 2001.

引证文献5

1黄丽琼,何中市,张杰慧.基于文本相似度的自动文摘评价方法[J].计算机应用研究,2007,24(8):97-99. 被引量：9
2刘茵,李弼程,郭映月.一种基于聚类算法的主旨句提取方法[J].情报学报,2008,27(1):49-55. 被引量：1
3徐超,王萌,何婷婷,张勇.基于局部主题关键句抽取的自动文摘方法[J].计算机工程,2008,34(22):49-51. 被引量：5
4周序生.改进的最小最大聚类方法在新闻主题来源追踪中的应用[J].湖南工业大学学报,2009,23(1):66-70.
5程传鹏.基于训练集的自动文摘方法的研究[J].中原工学院学报,2011,22(1):62-65.

二级引证文献15

1胡吉明,胡昌平.基于群体网络行为的用户聚合分析[J].情报杂志,2008,27(7):71-73. 被引量：4
2陆和健,李祝启.网络信息自动文摘研究[J].情报科学,2008,26(10):1597-1600. 被引量：1
3李铮.图书馆数字资源查重与遴选的计算机辅助实现[J].现代图书情报技术,2008(10):90-94.
4陈世强,贺刚,谢坤武.基于SPI与VSM的Web访问控制与过滤系统的研究与设计[J].计算机应用与软件,2009,26(7):126-128. 被引量：1
5杜文洁.用于化学文摘生成的压缩算法[J].计算机与应用化学,2010,27(2):249-252.
6王萌,徐超,李春贵,何婷婷.基于子主题区域划分的多文档自动文摘方法[J].计算机工程,2011,37(12):158-160. 被引量：1
7刘茂福,余博,胡慧君.基于维基百科的多文档自动摘要系统研究[J].微型机与应用,2011,30(16):89-91.
8邱欢堂,何聚厚,何秀青.教学反思内容自动评估模型研究[J].计算机技术与发展,2012,22(9):173-176. 被引量：2
9邓箴,包宏.基于词汇链的多文档自动文摘研究[J].计算机与应用化学,2012,29(11):1384-1386.
10王力,李培峰,朱巧明.一种基于LDA模型的主题句抽取方法[J].计算机工程与应用,2013,49(2):160-164. 被引量：10

1张炜,耿新,陈兆乾,陈世福.一种基于可疑人脸区域发现的人脸检测方法[J].计算机科学,2004,31(4):154-156.
2王亮,胡琨元,库涛,吴俊伟.随机采样移动轨迹时空热点区域发现及模式挖掘[J].吉林大学学报（工学版）,2015,45(3):913-920. 被引量：6
3张清军,朱才连.基于LBS的中文自动文摘技术研究[J].四川大学学报（工程科学版）,2004,36(4):99-102. 被引量：1
4王红玲,张明慧,周国栋.主题信息的中文多文档自动文摘系统[J].计算机工程与应用,2012,48(25):132-136. 被引量：5
5蒋效宇,樊孝忠,陈康.基于用户查询的中文自动文摘研究[J].计算机工程与应用,2008,44(5):48-50. 被引量：3
6刘楚达,孙海涛.一种基于统计的中文自动文摘方法[J].湖南农业大学学报（自然科学版）,2001,27(6):488-490. 被引量：3
7董建设,任丽,周燕玲.中文自动文摘在搜索引擎中的应用[J].情报科学,2006,24(2):267-269. 被引量：2
8董震,朱晓光.数据仓库实践问题浅析[J].中国金融电脑,2005(9):61-63. 被引量：2
9蔡文学,萧超武,黄晓宇.基于LDA的用户轨迹分析[J].计算机应用与软件,2015,32(5):307-309. 被引量：2
10李智翔,韩杰思,穆晓阳.基于航迹挖掘的热点区域发现[J].电信技术研究,2014(2):41-47.

计算机科学

2005年第1期

浏览历史

内容加载中请稍等...

基于主题区域发现的中文自动文摘研究被引量：5

参考文献11

二级参考文献10

共引文献58

同被引文献31

引证文献5

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于主题区域发现的中文自动文摘研究 被引量：5

参考文献11

二级参考文献10

共引文献58

同被引文献31

引证文献5

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于主题区域发现的中文自动文摘研究被引量：5