基于统计语义和结构特征的自动文摘被引量：8

Automatic Summarization Based on Statistic Semantic and Structural Features

下载PDF

导出

摘要在分析自动文摘现有方法优缺点的基础上,提出了一种基于统计、语义和结构特征的自动文摘方法。用这些特征构成句子向量表示,并用机器学习的方法对其进行训练得到器,从而把自动文摘转换为分类问题。实验表明,该方法具有较好的重合率。同时,为了解决文摘的冗余和不连贯缺点,进行了一系列的后期处理,提高了文摘的质量。 This paper presents a new automatic summarization method based on statistic, semantic and structural features while the advantages and disadvantages are analyzed for the popular methods of automatic summarization. There are eight features used to form the feature vector for each sentence,and the summarizer is gained by machine learning algorithms ,so automatic summarization is changed into classification task. The experiment results show that the method maintains higher precision. Meanwhile,the paper processes a series of post processing to overcome the shortcoming of redundancy and incoherence, and it improves largely the quality of summary.

作者黄丽琼何中市

机构地区重庆大学计算机学院重庆大学语言认知及信息处理研究所

出处《广西师范大学学报（自然科学版）》 CAS 北大核心 2006年第4期187-190,共4页 Journal of Guangxi Normal University:Natural Science Edition

基金国家自然科学基金资助项目(60173060)

关键词机器学习自动文摘句子相似度自然语言处理 machine learning automatic summarization sentence similarity natural language processing

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1MOENS M F,ANGHELUTA R,DUMORTIER J.Generic technologies for single and multi-document summarization[J].Information Processing and Management,2005,41(3):569-586.
2李蕾,钟义信,郭祥昊.全信息理论在自动文摘系统中的应用[J].计算机工程与应用,2000,36(1):4-7. 被引量：13
3刘挺,王开铸.自动文摘的四种主要方法[J].情报学报,1999,18(1):10-19. 被引量：55
4金旭,杨炳儒,菅志刚.自动文摘方法分析[J].计算机应用研究,2004,21(9):5-6. 被引量：8
5李明.从字频统计出发的中文文摘自动编写[J].现代图书情报技术,1996(3):42-45. 被引量：20
6郭庆琳,樊孝忠.基于文本聚类和NLU的自动文摘系统的研究与实现[J].现代电力,2004,21(4):76-80. 被引量：1
7LARROCA N J,FREITAS A A,KAESTNER C A A.Automatic text summarization using a machine learning approach[C]//XVI Brazilian Symposium on Artificial Intelligence.Number 2057 in Lecture Notes in Artificial Intelligence.Berlin:Springer,2002:205-215.

二级参考文献30

1苏海菊,王永成.中文科技文献文摘的自动编写[J].情报学报,1989,8(6):433-439. 被引量：26
2莫燕,王永成.中文文献摘要的自动编制[J].现代图书情报技术,1993(3):10-12. 被引量：15
3李明.从字频统计出发的中文文摘自动编写[J].现代图书情报技术,1996(3):42-45. 被引量：20
4杨晓兰，全国第四届计算语言学联合学术会议论文集，1997年，313页
5刘挺，情报学报，1997年，16卷，增刊，24页
6姚天顺，自然语言理解.一种让机器懂得人类语言的研究，1995年
7李俊杰，博士学位论文，1995年
8王建波，博士学位论文，1992年
9赖茂生（译），文摘的概念和方法，1991年
10王永成，中文信息处理技术及其基础，1991年

共引文献80

1刘茂福,李淑君,金可佳,张晓龙.多文档自动文摘中的特征组合优化[J].计算机系统应用,2008,17(8):59-63. 被引量：3
2申晓晔,封化民,毋非.基于语义的Web新闻内容倾向性分析框架[J].郑州大学学报（理学版）,2009,41(1):33-35.
3郭庆琳,樊孝忠.基于文本聚类和NLU的自动文摘系统的研究与实现[J].现代电力,2004,21(4):76-80. 被引量：1
4金旭,杨炳儒,菅志刚.自动文摘方法分析[J].计算机应用研究,2004,21(9):5-6. 被引量：8
5王志琪,王永成,刘传汉.论自动文摘及其分类[J].情报学报,2005,24(2):214-221. 被引量：2
6郭庆琳,樊孝忠,柳长安.文本聚类在自动文摘中的应用研究[J].计算机应用,2005,25(5):1036-1038. 被引量：4
7郭庆琳,樊孝忠,柳长安.基于文本聚类和NLU的自动文摘研究[J].北京理工大学学报,2005,25(8):705-709. 被引量：1
8王力,耿爱静.基于主题的网络论坛知识转换研究[J].情报科学,2005,23(10):1505-1508. 被引量：1
9尹存燕,戴新宇,陈家骏.Internet上文本的自动摘要技术[J].计算机工程,2006,32(3):88-90. 被引量：13
10董建设,任丽,周燕玲.中文自动文摘在搜索引擎中的应用[J].情报科学,2006,24(2):267-269. 被引量：2

同被引文献68

1吕志花.网络信息挖掘及其在搜索引擎方面的应用[J].微计算机信息,2008,24(6):173-174. 被引量：6
2车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：65
3晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用,2004,40(16):36-39. 被引量：27
4刘亚军,徐易.一种基于加权语义相似度模型的自动问答系统[J].东南大学学报（自然科学版）,2004,34(5):609-612. 被引量：36
5王荣波,池哲儒.基于词类串的汉语句子结构相似度计算方法[J].中文信息学报,2005,19(1):21-29. 被引量：28
6陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
7孙国菊,张杰.中文文本分类的特征选取评价[J].哈尔滨理工大学学报,2005,10(1):76-78. 被引量：14
8陈涛,宋妍,谢阳群.基于IIG和LSI组合特征提取方法的文本聚类研究[J].情报学报,2005,24(2):203-209. 被引量：14
9李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].厦门大学学报（自然科学版）,2005,44(B06):239-242. 被引量：3
10寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25

引证文献8

1帅剑平,周娅,徐芳虹.一种有效的基于密度聚类的排序算法[J].郑州大学学报（理学版）,2009,41(2):52-55.
2胡珀,何婷婷.基于自适应聚类的文本潜在主题的自动发现[J].郑州大学学报（理学版）,2007,39(2):92-95. 被引量：4
3闫英杰,林鸿飞,王剑峰.基于混合策略的中文文摘自动评测方法[J].广西师范大学学报（自然科学版）,2007,25(2):165-168.
4麻会东,刘国华,李现伟,刘春辉.基于文档指纹的中文复制检测方法[J].广西师范大学学报（自然科学版）,2007,25(4):112-115. 被引量：7
5刘海峰,王元元,刘守生.一种组合型中文文本分类特征选择方法[J].广西师范大学学报（自然科学版）,2007,25(4):208-211. 被引量：9
6蔡月红,朱倩,程显毅,杨天明.基于句义三维模型的汉语句子相似度计算[J].广西师范大学学报（自然科学版）,2009,27(1):153-156.
7蒋国瑞,袁通.电子信息产品领域的本体构建与应用[J].计算机应用研究,2010,27(5):1777-1781. 被引量：2
8曾庆鹏,吴水秀.网络教学平台中问答系统的关键技术研究[J].计算机与现代化,2010(7):23-26. 被引量：1

二级引证文献23

1郑天宏,许杭杰,董黎刚.中文文本抄袭检查技术的研究[J].杭州电子科技大学学报（自然科学版）,2010,30(5):117-120.
2于海,陈海雷,左万利.小生境免疫算法在中文文本聚类中的应用[J].广西师范大学学报（自然科学版）,2008,26(1):216-219. 被引量：2
3薛晓飞,张永奎,任晓东.基于新闻要素的新事件检测方法研究[J].计算机应用,2008,28(11):2975-2977. 被引量：8
4孙挺,耿国华,周明全.一种有效的特征权重计算方法[J].郑州大学学报（理学版）,2008,40(4):48-51. 被引量：9
5田胜利,熊德兰.中文网页作者情感态度倾向性分类研究[J].信阳师范学院学报（自然科学版）,2009,22(2):307-309. 被引量：3
6刘海峰,赵华,刘守生.一种基于位置的改进中文文本特征选择[J].图书情报工作,2009,53(21):102-105. 被引量：3
7刘海峰,赵华,刘守生.一种基于类别的组合型文本特征选择[J].情报学报,2010,29(4):744-748. 被引量：2
8黄柳柳,黄河燕,史树敏.面向代码相似度检测的指纹选取方法[J].计算机工程与应用,2010,46(27):169-171. 被引量：4
9郑天宏,许杭杰,董黎刚.中文文本抄袭检查系统的改良与设计[J].电脑编程技巧与维护,2010(20):23-25.
10王巍,于海,王志飞.计算机技术在反学术论文抄袭中的应用概述[J].辽宁师专学报（自然科学版）,2010,12(3):106-108.

1张庆.情态动词与中考[J].中学英语之友（新教材初三版）,2010(5):40-42.
2罗森林,韩磊,潘丽敏,冯扬,刘盈盈.汉语句义结构模型及其验证[J].北京理工大学学报,2013,33(2):166-171. 被引量：10
3谭文斌,张太华,何二宝.基于多特征融合的产品评论语句相似度计算[J].贵州师范大学学报（自然科学版）,2016,34(1):81-87.
4语法复习：句子成分[J].中学英语之友（新教材高三版）,2011(7):18-19.
5何嗣菊.培养中学生写好英语句子的方法[J].科学咨询,2016,0(27):130-130. 被引量：1
6董丽丽.英汉对比视角下写作中谓语部分典型错误浅析[J].文教资料,2016(5):40-41.
7章璇.在小学英语语法教学中寻求可用之法[J].创新时代,2016,0(6):63-65.

广西师范大学学报（自然科学版）

2006年第4期

浏览历史

内容加载中请稍等...

基于统计语义和结构特征的自动文摘被引量：8

参考文献7

二级参考文献30

共引文献80

同被引文献68

引证文献8

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于统计语义和结构特征的自动文摘 被引量：8

参考文献7

二级参考文献30

共引文献80

同被引文献68

引证文献8

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于统计语义和结构特征的自动文摘被引量：8