自动文摘基集语句的提取与润色的数学模型被引量：2

Mathematical Model for Abstracting and Embellishing Sentences in Automatic Abstraction

下载PDF

导出

摘要针对统计和理解相结合的自动文摘方法,提出了一种新的内容词、有效词和特征词的动态加权函数以及句子重要性的动态加权函数。鉴于基于统计的自动文摘结果常常出现语句间缺乏连贯性及信息冗余的问题,设计了句间语义距离测试函数,并通过大量实验确定语句间语义距离的上限和下限。上限用于控制语句间的逻辑联系,下限用于解决文摘结果信息冗余的问题。实验结果证明,该模型能有效地提取文章中的重点语句,且很好地解决了统计文摘语句不连冠的瓶颈问题。 Two kinds of dynamic weighting functions were presented, One was content words, effective words and characteristic words weighting function and the other was sentence weighting function, Considering the problems of lack of logic between sentences and information redundancy were usually exist in the statistical-based abstraction result, a distinguish function based on semantic distance was purposed. The upper limit of such a semantic distance was used in controlling the logic continuity between sentences obtained from a mass of experiments as well as the lower one was used in information redundancy resolving, Combining the dynamic weighting functions, the semantic-distance-based distinguish function and the automatic text structure analysis method presented above, a basic abstraction was generated. Then, the basic abstraction was condensed, This integrated approach demonstrated the impressive effectiveness by its outstanding performance in experiment,

作者吴岩李秀坤

机构地区哈尔滨工业大学计算机学院

出处《计算机应用研究》 CSCD 北大核心 2007年第5期52-55,共4页 Application Research of Computers

基金国家"863"计划资助项目(2001AA114101)

关键词自然语言处理自动文摘语义距离 natural language processing automatic abstracting semantic distance

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1JOHN H P.The automatic creation of literature abstracts[J].IBM Journal,1958,4(3):159-165.
2苏海菊,王永成.中文科技文献文摘的自动编写[J].情报学报,1989,8(6):433-439. 被引量：26
3EDMUNSON H P.New method in automatic extracting[J].Journal of the ACM,1969,3(7):226-234.
4WATANABE H.A method for abstracting newspaper articles by using surface clues:the 16th International Conference on Computational Linguistics[C].[S.l.]:[s.n.],1996:974-979.
5MIKHEERV A,FINCH S.A workshop for finding structure in texts:Applied National Language Processing[C].Washington:[s.n.].
6MA Xiwen,LI Xiaobin,XU Yue.Natural language processing and automatic abstraction[M].[S.l.]:Intelligent Technology and System Foundation,1998:99-117.
7LI Wanyin,LU Qin,XU Ruifeng.Similarity based Chinese synonym collocation extraction[J].Computational Linguistics and Chinese Language Processing,2005,10(1):123-144.
8DEJONG G.Prediction and substantiation:two process that comprise understanding:proceedings of the International Joint Conference on Artificial Intelligence[C].[S.l.]:[s.n.],1979:217-222.
9ONO K,SUMITA K,MⅡKE S.Abstract generation based on rhetorical structure extraction:COLING[C].Kyoto:[s.n.],1994:344-348.
10HUNTER M A.Supporting environmental scanning and organizational communication with the processing of text:the use of computer-generated abstracts[D].[S.l.]:Texas Tech.University,1988:20-168.

共引文献25

1胡俊华,杨波,李金屏.自然语言理解研究略述[J].济南大学学报（社会科学版）,2001,11(5):58-62. 被引量：8
2陈燕敏,王晓龙,刘远超,楼喜中.一种基于文章主题和内容的自动摘要方法[J].计算机工程与应用,2004,40(33):11-14. 被引量：12
3王志琪,王永成,刘传汉.论自动文摘及其分类[J].情报学报,2005,24(2):214-221. 被引量：2
4陈燕敏,王晓龙,刘秉权,楼喜中.多知识源融合的自动摘要系统研究与实现[J].高技术通讯,2006,16(4):337-341. 被引量：2
5程玉柱,邬书跃.基于部件的文本相似度计算[J].计算机工程与设计,2006,27(18):3444-3446. 被引量：4
6胡思康,曹元大.Web网页知识获取技术[J].北京理工大学学报,2006,26(12):1065-1068. 被引量：4
7陈珂,殷凡.中文自动摘要综述[J].福建电脑,2007,23(2):34-35.
8刘小冬.自然语言理解综述[J].统计与信息论坛,2007,22(2):5-12. 被引量：13
9张美娜,亓超,迟呈英,战学刚.基于汉语篇章结构的自动摘要方法研究[J].情报杂志,2007,26(8):34-36. 被引量：3
10徐永东,徐志明,王晓龙.基于信息融合的多文档自动文摘技术[J].计算机学报,2007,30(11):2048-2054. 被引量：27

同被引文献9

1张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
2秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
3焦李成,孙强.多尺度变换域图像的感知与识别:进展和展望[J].计算机学报,2006,29(2):177-193. 被引量：45
4[6]Yuan Ding.A Survey on Multi-Document Summarization.DeOartment of Computer and Information Science University of Pennsylvania,2004.
5[7]Dragomir R.Radev,Hongyan Jing,Malgorzata Stys.DanieI Tam.Centroid-based summarization of multiple documents.Information Processing and Management.2004,40:919-938.
6[9]http://gate.ac.uk/
7陈寿文,李明东.基于面向对象思想KMeans算法实现[J].滁州学院学报,2008,10(3):42-44. 被引量：7
8刘挺,王开铸.自动文摘的四种主要方法[J].情报学报,1999,18(1):10-19. 被引量：55
9万敏,罗振声,季姮,高小云.基于概念统计的英文自动文摘研究[J].计算机工程与应用,2002,38(24):7-9. 被引量：9

引证文献2

1刘茂福,李淑君,金可佳,张晓龙.多文档自动文摘中的特征组合优化[J].计算机系统应用,2008,17(8):59-63. 被引量：3
2顾晟,袁红娟.基于WEB技术的图像索引体系的建构[J].南京工程学院学报（自然科学版）,2011,9(1):41-43.

二级引证文献3

1何忠育,王勇,王瑛,陈新,廖朝辉.基于分布式计算的网络舆情分析系统的设计[J].警察技术,2010(3):19-22. 被引量：6
2王红玲,张明慧,周国栋.主题信息的中文多文档自动文摘系统[J].计算机工程与应用,2012,48(25):132-136. 被引量：5
3高东辉,路伟,张永刚,赵雷,王卓,孙建国.基于自动文摘的地震灾情信息分析处理系统研究与实现[J].化工中间体,2015,11(12):76-78. 被引量：1

1谢刚,张为群.C／S遗留系统到SOA系统移植框架研究[J].计算机科学,2007,34(11):301-303. 被引量：10
2丁雷青.多媒体技术应用[J].上海电力,1997,10(3):51-52.
3李凤鸣.探讨多媒体技术在地理教学中的运用[J].中学政史地（教学指导）,2013(2):48-49.
4王握文.天河二号获世界超算“五连冠”[J].现代企业,2015(7).
5赵煜.“天河二号”获世界超算“五连冠”[J].科技中国,2015,0(8):12-13.
6科日.天河二号夺世界超算“五连冠”[J].军民两用技术与产品,2015,0(15):5-5.
7许.浪潮服务器勇夺十连冠[J].中国计算机用户,2006(6):48-48.
8李载烨:拿下显示器市场十一连冠[J].消费电子,2009(11):77-77.
9钟达.“天河二号”荣获全球超算四连冠[J].环球飞行,2014,0(10):6-6.
10中国“天河二号”获全球超级计算机四连冠[J].中国建设信息,2014,0(22):64-64.

计算机应用研究

2007年第5期

浏览历史

内容加载中请稍等...

自动文摘基集语句的提取与润色的数学模型被引量：2

参考文献10

共引文献25

同被引文献9

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

自动文摘基集语句的提取与润色的数学模型 被引量：2

参考文献10

共引文献25

同被引文献9

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

自动文摘基集语句的提取与润色的数学模型被引量：2