基于混合方法的多语言多文档自动摘要系统构建及实现被引量：4

Multilingual Multi-Document Automatic Text Summarization System Implementation Based on a Hybrid Approach

导出

摘要文章基于"指代消解"、"文本外部特征"、"图排序"的混合方法实现多语言多文档新闻摘要系统。该系统由四大模块组成,分别为:原文预处理;基于文本外部特征的摘要计算;基于图排序的摘要计算与;摘要生成模块。首先对新闻文本进行预处理和指代消解,然后在第二模块使用文本外部特征(如:主题词、线索词语、关键词与其同义词、时间、地点、命名实体等)来计算原文中句子的重要程度,句子与新闻主题的相关度,并且对每个句子第一次打分。然后在第三模块采用图排序的算法再从原文中计算句子之间的连贯程度,并且第二次对每个句子打分。最后在第四模块通过两个不同算法的得分计算原文中句子的总得分并且按原文中句子出现的顺序摘出新闻文本的摘要。文章以汉语、英语、孟加拉语为例,实现该系统并进行摘要测试。实验表明系统能够从三个不同语种的多文档新闻文本中有效地摘出摘要。 This paper implements a multilingual multi-document News summarization system based on a hybrid method of ＂pronoun resolution＂,＂shallow document characteristics＂and＂iterative graph-based algorithm＂.The system consists of four major modules,which are respectively 1）Document preprocess,2）Shallow document characteristics based summary,3）Graph-based ranking and 4）Final summary generation.Firstly,system deploys the text preprocessing and pronoun resolution on multi-document news ware.Then shallow document characteristics（e.g.topic word,cue phrase,Keywords and their synonyms,Named entity,time,place etc.）based summarization method is applied to rank all the sentences in input document cluster for first time.Then system ranks the sentences in source documents again using iterative graph-based ranking algorithm.Finally the total score of a sentence is computed using these scores given using above two methods and final summary text is generated according to the sentence sequence in original text.This system has been tested using multi-document news text of English,Chinese and Bengali Language.Test results proves that the system is able to extract news summary from these languages effectively.

作者柯修王惠临

机构地区北京大学信息管理系中国科学技术信息研究所

出处《图书馆学研究》 CSSCI 北大核心 2013年第2期66-72,共7页 Research on Library Science

基金中国科学技术信息研究所学科建设项目"自然语言处理"(项目编号:XK2012-6)的研究成果之一

关键词多语言自动摘要多文档自动摘要图排序算法文本外部特征 multilingual automatic text summarization multi-document automatic text summarization iterative graph-based ranking algorithm shallow text characteristics

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献17

1Hovy E. , Mrcu D. Automated Text Summarization [ C] . Tutorial in 17th ACL and 36th COLING, Montreal, Quebec, Canada. 1998a.
2Chen ILH, Huang SJ. ( ) A Summarization System for Chinese News from Multiple Sources [ C] . Proceedings of 4th International Workshop on information Retrieval with Asian languages. ! -% 1999.
3]Mani I, Bloedorn E. Machine Learning of Generic and User-Focused Summarization [ C] . Proceedings of the 15th National Conference on Artificial Intelligence. 821 - 826 (1998).
4Radev D, McKeown K R. Generating Natural Language Summaries from Multiple On-Line Sources [ J ] . Computational Linguistics, 1998, 24 (3): 469-500.
5http: //www. summarization, corn/mead/.
6http= //texlexan. sourceforge, net/.
7http: //libots. sourceforge, net/.
8刘挺,吴岩,王开铸.自动文摘综述[J].情报科学,1998,16(1):63-69. 被引量：10
9Das A, Bandyopadhyay S, Topic-Based Bengali Opinion Summarization [ C] . COLING (Posters) 2010:232 -240.
10K Sarkar. An approach to summarizing Bengali news documents [ C ] . Proceedings of the International Conference on Advances in Computing, Communications and Informatics. 2012: 85"/ - 862.

二级参考文献16

1金旭,杨炳儒,菅志刚.自动文摘方法分析[J].计算机应用研究,2004,21(9):5-6. 被引量：8
2金博,史彦军,滕弘飞,艾景波.自动文摘技术及应用[J].计算机应用研究,2004,21(12):13-15. 被引量：4
3王志琪,王永成,刘传汉.论自动文摘及其分类[J].情报学报,2005,24(2):214-221. 被引量：2
4姚天顺，自然语言理解.一种让机器懂得人类语言的研究，1995年
5李俊杰，博士学位论文，1995年
6王建波，博士学位论文，1992年
7李小滨，软件学报，1991年，4期
8哈罗德博科，文摘的概念与方法，1991年
9刘开瑛，自然语言处理，1991年
10徐越，第一届中国人工智能联合学术会议论文集，1990年

共引文献30

1申晓晔,封化民,毋非.基于语义的Web新闻内容倾向性分析框架[J].郑州大学学报（理学版）,2009,41(1):33-35.
2王志琪,王永成,刘传汉.论自动文摘及其分类[J].情报学报,2005,24(2):214-221. 被引量：2
3王力,耿爱静.基于主题的网络论坛知识转换研究[J].情报科学,2005,23(10):1505-1508. 被引量：1
4黄丽琼,何中市.基于统计语义和结构特征的自动文摘[J].广西师范大学学报（自然科学版）,2006,24(4):187-190. 被引量：8
5蔡建山,迟呈英,战学刚,王丫.基于滑动窗口的动态摘要算法[J].计算机工程,2007,33(6):213-215. 被引量：4
6官礼和.Internet网络新闻文本自动摘要的研究[J].计算机工程与设计,2007,28(14):3518-3520. 被引量：9
7谭翀,陈跃新.自动摘要方法综述[J].情报学报,2008,27(1):62-68. 被引量：9
8朱荷香,曲维光,卢俊之,李素建,邵艳秋.面向自动文摘的文本结构划分[J].南京大学学报（自然科学版）,2008,44(2):204-211. 被引量：2
9孔敏,毕建钢.政务信息处理与政府决策[J].电子政务,2009(2):66-74. 被引量：4
10刘德喜,吴世汉,万常选.XML文本自动文摘研究综述[J].计算机应用研究,2009,26(11):4014-4018.

同被引文献131

1邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
2陈燕敏,王晓龙,刘远超,楼喜中.一种基于文章主题和内容的自动摘要方法[J].计算机工程与应用,2004,40(33):11-14. 被引量：12
3莫燕,王永成.中文文献摘要的自动编制[J].现代图书情报技术,1993(3):10-12. 被引量：15
4王永成.自动编制文献摘要及知识的自动提取[J].现代图书情报技术,1993(3):13-13. 被引量：1
5秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
6罗智勇,宋柔.现代汉语通用分词系统中歧义切分的实用技术[J].计算机研究与发展,2006,43(6):1122-1128. 被引量：19
7黄水清,李志燕,梁刚.面向计算机类文献的自动摘要系统的研究与实现[J].图书与情报,2006(3):93-97. 被引量：1
8傅间莲,陈群秀.一种新的自动文摘系统评价方法[J].计算机工程与应用,2006,42(18):176-177. 被引量：9
9黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
10官礼和.Internet网络新闻文本自动摘要的研究[J].计算机工程与设计,2007,28(14):3518-3520. 被引量：9

引证文献4

1梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
2郭建伟,燕娜,陈佳宇.基于应用技术实现语言处理研究[J].中阿科技论坛（中英阿文）,2018(4):26-29.
3王连喜.自动摘要研究中的若干问题[J].图书情报工作,2014,58(20):13-22. 被引量：7
4郭建伟,燕娜,陈佳宇.语言处理技术研究[J].河南科技,2018,37(35):17-19. 被引量：1

二级引证文献9

1那勇,李明全.基于深度学习的中文自动分词研究[J].吉林广播电视大学学报,2019(12):58-59.
2刘天祎,步一,赵丹群,黄文彬.自动引文摘要研究述评[J].现代图书情报技术,2016(5):1-8. 被引量：3
3高永兵,王宇,马占飞.基于CR-PageRank算法的个人事件自动摘要研究[J].计算机工程,2016,42(11):64-69. 被引量：3
4贾晓婷,王名扬,曹宇.基于加权主题分布表达的微博文本摘要生成研究[J].东北师大学报（自然科学版）,2020,52(1):69-74. 被引量：1
5陶兴,张向先,郭顺利,张莉曼.学术问答社区用户生成内容的W2V-MMR自动摘要方法研究[J].数据分析与知识发现,2020,4(4):109-118. 被引量：8
6王幸子.多模态网络信息资源融合应用路径研究[J].科技创业月刊,2020,33(12):61-64.
7余传明,郭亚静,朱星宇,安璐.基于最大边界相关度的抽取式文本摘要模型研究[J].情报科学,2021,39(2):34-43. 被引量：8
8孙秋月,焦伟婷,蔡宁.计算机自动文摘方法的分类探讨[J].办公自动化,2023,28(3):56-58.
9曲维光.大规模精加工通用语料库建设的范例——《大规模现代汉语分词语料库构建及应用》书评[J].文献与数据学报,2024,6(1):116-120.

1黄文彬,倪少康.多文档自动摘要方法的进展研究[J].情报科学,2017,35(4):160-165. 被引量：4
2李雅萱.中央电视台开播阿拉伯语国际频道[J].当代电视,2009(9):96-96.
3杨桂荣.世界不同语种图书在版主题索引分析—兼论建立中文...[J].情报业务研究,1990,7(6):294-298.
4投稿须知[J].企业研究（理论版）,2011,0(2).
5本期缩略语[J].中国小儿血液与肿瘤杂志,2013,18(5):225-225.
6纪明奎,黄丽霞.基于语义网的个性化信息检索模型研究[J].现代情报,2007,27(12):166-167. 被引量：8
7曹光豪.《世界十三个大语种》内容有误[J].编辑之友,1989(3):73-73.
8韩若画(编译).南亚数字档案正式上线[J].中国档案,2013(8):13-13.
9史磊,王永成.英文文献自动摘要系统研究[J].情报学报,1999,18(6):504-508. 被引量：4
10刘增勤.世界十三个大语种[J].编辑之友,1989(1):38-38.

图书馆学研究

2013年第2期

浏览历史

内容加载中请稍等...

基于混合方法的多语言多文档自动摘要系统构建及实现被引量：4

参考文献17

二级参考文献16

共引文献30

同被引文献131

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于混合方法的多语言多文档自动摘要系统构建及实现 被引量：4

参考文献17

二级参考文献16

共引文献30

同被引文献131

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于混合方法的多语言多文档自动摘要系统构建及实现被引量：4