期刊文献+

基于混合方法的多语言多文档自动摘要系统构建及实现 被引量:4

Multilingual Multi-Document Automatic Text Summarization System Implementation Based on a Hybrid Approach
原文传递
导出
摘要 文章基于"指代消解"、"文本外部特征"、"图排序"的混合方法实现多语言多文档新闻摘要系统。该系统由四大模块组成,分别为:原文预处理;基于文本外部特征的摘要计算;基于图排序的摘要计算与;摘要生成模块。首先对新闻文本进行预处理和指代消解,然后在第二模块使用文本外部特征(如:主题词、线索词语、关键词与其同义词、时间、地点、命名实体等)来计算原文中句子的重要程度,句子与新闻主题的相关度,并且对每个句子第一次打分。然后在第三模块采用图排序的算法再从原文中计算句子之间的连贯程度,并且第二次对每个句子打分。最后在第四模块通过两个不同算法的得分计算原文中句子的总得分并且按原文中句子出现的顺序摘出新闻文本的摘要。文章以汉语、英语、孟加拉语为例,实现该系统并进行摘要测试。实验表明系统能够从三个不同语种的多文档新闻文本中有效地摘出摘要。 This paper implements a multilingual multi-document News summarization system based on a hybrid method of "pronoun resolution","shallow document characteristics"and"iterative graph-based algorithm".The system consists of four major modules,which are respectively 1)Document preprocess,2)Shallow document characteristics based summary,3)Graph-based ranking and 4)Final summary generation.Firstly,system deploys the text preprocessing and pronoun resolution on multi-document news ware.Then shallow document characteristics(e.g.topic word,cue phrase,Keywords and their synonyms,Named entity,time,place etc.)based summarization method is applied to rank all the sentences in input document cluster for first time.Then system ranks the sentences in source documents again using iterative graph-based ranking algorithm.Finally the total score of a sentence is computed using these scores given using above two methods and final summary text is generated according to the sentence sequence in original text.This system has been tested using multi-document news text of English,Chinese and Bengali Language.Test results proves that the system is able to extract news summary from these languages effectively.
作者 柯修 王惠临
出处 《图书馆学研究》 CSSCI 北大核心 2013年第2期66-72,共7页 Research on Library Science
基金 中国科学技术信息研究所学科建设项目"自然语言处理"(项目编号:XK2012-6)的研究成果之一
关键词 多语言自动摘要 多文档自动摘要 图排序算法 文本外部特征 multilingual automatic text summarization multi-document automatic text summarization iterative graph-based ranking algorithm shallow text characteristics
  • 相关文献

参考文献17

  • 1Hovy E. , Mrcu D. Automated Text Summarization [ C] . Tutorial in 17th ACL and 36th COLING, Montreal, Quebec, Canada. 1998a.
  • 2Chen ILH, Huang SJ. ( ) A Summarization System for Chinese News from Multiple Sources [ C] . Proceedings of 4th International Workshop on information Retrieval with Asian languages. ! -% 1999.
  • 3]Mani I, Bloedorn E. Machine Learning of Generic and User-Focused Summarization [ C] . Proceedings of the 15th National Conference on Artificial Intelligence. 821 - 826 (1998).
  • 4Radev D, McKeown K R. Generating Natural Language Summaries from Multiple On-Line Sources [ J ] . Computational Linguistics, 1998, 24 (3): 469-500.
  • 5http: //www. summarization, corn/mead/.
  • 6http= //texlexan. sourceforge, net/.
  • 7http: //libots. sourceforge, net/.
  • 8刘挺,吴岩,王开铸.自动文摘综述[J].情报科学,1998,16(1):63-69. 被引量:10
  • 9Das A, Bandyopadhyay S, Topic-Based Bengali Opinion Summarization [ C] . COLING (Posters) 2010:232 -240.
  • 10K Sarkar. An approach to summarizing Bengali news documents [ C ] . Proceedings of the International Conference on Advances in Computing, Communications and Informatics. 2012: 85"/ - 862.

二级参考文献16

  • 1金旭,杨炳儒,菅志刚.自动文摘方法分析[J].计算机应用研究,2004,21(9):5-6. 被引量:8
  • 2金博,史彦军,滕弘飞,艾景波.自动文摘技术及应用[J].计算机应用研究,2004,21(12):13-15. 被引量:4
  • 3王志琪,王永成,刘传汉.论自动文摘及其分类[J].情报学报,2005,24(2):214-221. 被引量:2
  • 4姚天顺,自然语言理解.一种让机器懂得人类语言的研究,1995年
  • 5李俊杰,博士学位论文,1995年
  • 6王建波,博士学位论文,1992年
  • 7李小滨,软件学报,1991年,4期
  • 8哈罗德 博科,文摘的概念与方法,1991年
  • 9刘开瑛,自然语言处理,1991年
  • 10徐越,第一届中国人工智能联合学术会议论文集,1990年

共引文献30

同被引文献131

引证文献4

二级引证文献9

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部