一种新的句子相似度度量及其在文本自动摘要中的应用被引量：34

A New Method for Calculating Similarity Between Sentences and Application on Automatic Text Summarization

下载PDF

导出

摘要本文提出了一种新的句子相似度度量的方法并应用于文本自动摘要中。其创新处在于相似度计算不仅考虑句子中的uni gram ,还考虑了bi gram和tri gram ,通过回归方法将这几种相似度结果综合起来。实验证明这种相似度计算方法是有效的。同时本文还提出了一种新的 ,利用句子间相似度以及句子的权重的抽句式文摘算法 ,在抽取出句子的同时也去掉了冗余。DUC2 0 0 3、DUC2 0 0 4 (DocumentUnderstandingConference 2 0 0 3,2 0 0 4 )的评测结果征明了方法的有效性。我们的系统在DUC2 0 0 4的评测中列第二位。 This paper introduces a new method for calculating similarity between sentences.The algorithm uses not only uni gram but also bi gram and tri gram to calculate similarity.The algorithm is based on regression methods. Experimentations show that the method effective.The final summarization result is better than the algorithm that does not use it.We also propose a new summarization algorithm based on sentences weight and the new sentence similarity calculating method.While extracting the most important sentences,redundancy is also reduced.The evaluation of DUC2003 and DUC2004 shows its effectiveness.Our system rank second among all systems that join in the DUC 2004.

作者张奇黄萱菁吴立德

机构地区复旦大学计算机科学与工程系

出处《中文信息学报》 CSCD 北大核心 2005年第2期93-99,共7页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目 (6 0 10 30 14 ) 上海市科委重要研究项目资助 (0 35 0 0 5 0 2 8)

关键词计算机应用中文信息处理文本自动摘要向量模型相似度计算 computer application Chinese information processing text summarization vector model similarity calculating

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1H.P.Luhn. The automatic creation of literature abstracts [ A].IBM Journal of Research Development [ C],2:159-165,1958.
2G. Salton, A. Singhai, M. Mitra, C. Buckly, 1999. Automatic text structuring and summarization [ A ]. In advances in Automatic Text Summarization [ C ], Eds. I. Mani and M. T. Maybury. The MIT Press. Pp 62 - 70.
3Jae-Hoon Kim,JoonHong Kim, Dosam Hwang,2000. Korean Text Summarization Using an Aggregate Similarity [ A]. The 5th International Workshop on Information Retrieval with Asian Languages [C].Hong Kong,September 30 to October 3,2000.
4MINIPAR [ R]. MINIPAR's Home Page. http:∥www. cs. ualberta. ca/～ lindek/minipar. htm.
5D.K.Lin, 1993.Principle-based parsing without overgeneration [A] .In Proceedings of ACL- 93 [C] ,pages 112 -120, Columbus, Ohio.
6J. Carbonell, J. Goldstein, 1998. The use of MMR, diversity-based reranking for reordering documents and producing summaries [ A],In: Proceedings of the 21st ACM-SIGIR International Conference on Research and Development in Information Retrieval [C], Melbourne, Australia.
7Lin, Chin-Yew and E. H. Hovy 2003. Automatic Evaluation of Summaries Using N-gram Co-occurrence Statistics [ A ]. In Proceedings of 2003 Language Technology Conference (HLT-NAACL 2003) [C],Edmonton,Canada,May 27- June 1,2003.
8Lin, Chin-Yew and E. H. Hovy. 2002. Automated Multi-document Summarization in NeATS [ A ]. In Proceedings of the Human Language Technology Conference (HLT2002) [C] ,San Diego,CA,U.S.A. ,March 23-27,2002.
9Radev,D.R. ,Jing,H. ,and Budzikowska,M.2000. Centroid-based summarization of multiple documents [A] .In ANLP-NAACL workshop on summarization [ C].
10Hovy, E. and Lin, C. 1997. Automated text summarization in SUMMARIST [ A]. Pages 18- 24. In A CL '97 workshop on Intelligent Scalable Text Summarization [ C].

同被引文献281

1李卫,王枞,李蕾,郭燕慧,钟义信.全信息知识制导的科技期刊初审辅助系统[J].北京邮电大学学报,2006,29(z2):127-132. 被引量：2
2闫宏飞,陈翀.词汇与中心词的距离信息对问句相似度匹配的影响[J].清华大学学报（自然科学版）,2005,45(S1):1873-1877. 被引量：8
3朱礼军,陶兰,刘慧.领域本体中的概念相似度计算[J].华南理工大学学报（自然科学版）,2004,32(z1):147-150. 被引量：48
4王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
5刘海涛.依存语法和机器翻译[J].语言文字应用,1997(3):91-95. 被引量：43
6车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：63
7晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用,2004,40(16):36-39. 被引量：26
8顾榕,王小平,曹立明.一种基于潜在语义分析的查询扩展算法[J].计算机工程与应用,2004,40(18):23-25. 被引量：8
9姚建民,周明,赵铁军,李生.基于句子相似度的机器翻译评价方法及其有效性分析[J].计算机研究与发展,2004,41(7):1258-1265. 被引量：17
10袁亦宁.国外计算机翻译的发展和近况[J].上海科技翻译,2002(2):58-59. 被引量：26

引证文献34

1刘茂福,李淑君,金可佳,张晓龙.多文档自动文摘中的特征组合优化[J].计算机系统应用,2008,17(8):59-63. 被引量：3
2化柏林.基于句子匹配的文章自写度测评系统[J].现代图书情报技术,2007(11):40-44. 被引量：2
3周法国,杨炳儒.句子相似度计算新方法及在问答系统中的应用[J].计算机工程与应用,2008,44(1):165-167. 被引量：45
4杨思春,陈家骏.中文自动问答中句子相似度计算研究[J].情报学报,2008,27(1):35-41. 被引量：5
5樊勇,郑家恒.基于主题的网页去重[J].电脑开发与应用,2008,21(4):4-6. 被引量：2
6赵善祥,刘万军.翻译记忆中数据筛选方法的研究[J].计算机系统应用,2009,18(4):109-113. 被引量：3
7乔剑敏,张仰森.词义标注一致性检验系统的设计与实现[J].中文信息学报,2010,24(4):44-51. 被引量：3
8张志平,李琳娜.NSTL文献检索系统中相关文献推荐功能的设计及实现[J].现代图书情报技术,2010(7):110-113. 被引量：8
9张培颖.多特征融合的语句相似度计算模型[J].计算机工程与应用,2010,46(26):136-137. 被引量：19
10刘青磊,顾小丰.基于《知网》的词语相似度算法研究[J].中文信息学报,2010,24(6):31-36. 被引量：34

二级引证文献324

1梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
2才藏太,赵海兴,才让加.汉藏句子自动对齐技术研究[J].青海师范大学学报（自然科学版）,2022,38(1):1-3.
3LIAO Yunyan,HUANG Qing,WANG Changjing,ZUO Zhengkang,LU Jiaxing.Course Intelligent Brain Model Based on Crowd Intelligence[J].Wuhan University Journal of Natural Sciences,2022,27(4):331-340.
4何忠育,王勇,王瑛,陈新,廖朝辉.基于分布式计算的网络舆情分析系统的设计[J].警察技术,2010(3):19-22. 被引量：6
5陈小宾,葛新伟,林鸿飞.基于语义计算的公交移动问答系统[J].计算机工程与科学,2008,30(10):118-121. 被引量：1
6董刊生,方金云.基于向量距离的词序相似度算法[J].中文信息学报,2009,23(3):45-50. 被引量：10
7袁春兰,张琳.基于招生咨询域的问答系统中答案抽取的研究[J].电脑知识与技术,2009,5(5):3414-3416. 被引量：4
8薛慧芳.句子相似度计算初探[J].科技信息,2009(19):162-162. 被引量：2
9李林,周一民.传递信息分类的句子间相似性度量[J].计算机工程与应用,2009,45(31):15-17.
10王森,王宇.基于文本结构树的论文复制检测算法[J].现代图书情报技术,2009(10):50-55. 被引量：4

1李成果.基于DSC的多文本自动摘要[J].计算机系统应用,2014,23(7):7-11. 被引量：2
2杨勇涛.文本自动摘要提取算法[J].成都大学学报（自然科学版）,2009,28(2):142-145. 被引量：4
3刘德喜,万常选.社会化短文本自动摘要研究综述[J].小型微型计算机系统,2013,34(12):2764-2771. 被引量：12
4傅间莲,陈群秀.一种新的自动文摘系统评价方法[J].计算机工程与应用,2006,42(18):176-177. 被引量：8
5本刊记者.第六届青年计算语言学会议将在上海召开[J].语言科学,2012,11(3):253-253.
6胡迎春,张增芳,梁数,张建中.一种面部图像处理的边缘检测方法[J].山东科技大学学报（自然科学版）,2004,23(2):65-67.
7黎琳,赵英.Web内容挖掘在数字图书馆中的应用[J].图书馆学研究,2006(2):19-21. 被引量：9
8程园,吾守尔.斯拉木,买买提依明.哈斯木.基于综合的句子特征的文本自动摘要[J].计算机科学,2015,42(4):226-229. 被引量：11
9袁鼎荣,钟宁,张师超.文本信息处理研究述评[J].计算机科学,2011,38(2):9-13. 被引量：11
10王连喜.自动摘要研究中的若干问题[J].图书情报工作,2014,58(20):13-22. 被引量：7

中文信息学报

2005年第2期

浏览历史

内容加载中请稍等...

一种新的句子相似度度量及其在文本自动摘要中的应用被引量：34

参考文献14

同被引文献281

引证文献34

二级引证文献324

相关作者

相关机构

相关主题

浏览历史

一种新的句子相似度度量及其在文本自动摘要中的应用 被引量：34

参考文献14

同被引文献281

引证文献34

二级引证文献324

相关作者

相关机构

相关主题

浏览历史

一种新的句子相似度度量及其在文本自动摘要中的应用被引量：34