基于语料库与层次词典的自动文摘研究(英文) 被引量：2

Study of Automatic Abstracting Based on Corpus and Hierarchical Dictionary

下载PDF

导出

摘要自动文摘研究作为自然语言处理研究的一个重要且实用的分支 ,目前逐渐成为 Internet信息检索等应用领域的重要研究课题之一 .该文提出的基于语料库的文摘试图将传统的基地语言学分析的文摘方法和基于统计的文摘方法的优点结合在一起 .基于语料库的文摘方法的实质即以系统外的分析代价换取系统内的算法效率 .该文描述的算法给出了基于层次词典的关键字提取和基于语料库的自动文摘的实现 . ing is a vital and practical information processing task in natural language processing, and becomes an important problem in domains such as Internet information retrieval. An approach based on corpus proposed by this paper provides an integration of the advantages of linguistic analysis based methods and those based on statistics. In essence, the basic idea of corpus based method is at the expense of the cost of analysis outside the system to gain the efficiency of the algorithm inside the system. The algorithm given by the paper implements both keywording and abstracting while the former is based on a hierarchical dictionary and the latter on the corpus.

作者宋今赵东岩

机构地区北京大学计算机科学与技术系

出处《软件学报》 EI CSCD 北大核心 2000年第3期308-314,共7页 Journal of Software

关键词自动文摘语料库层次词典自然语言处理 Automatic abstracting, corpus, keywording, hierarchical dictionary.

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1王建波,杜春玲,王开铸.基于篇章理解的自动文摘研究[J].中文信息学报,1995,9(3):33-42. 被引量：12

二级参考文献4

1王建波，博士学位论文，1992年
2王建波，情报科学，1991年，6卷
3吴应天，文章结构学，1989年
4丁树声，现代汉语语法讲话，1979年

共引文献11

1袁毓林.用逻辑和篇章知识来约束模板匹配——逻辑结构和篇章结构知识在信息抽取中的运用[J].中文信息学报,2005,19(4):39-45. 被引量：6
2王德亮.语篇脉络理论述评——宏观语篇处理[J].现代外语,2006,29(3):309-316. 被引量：3
3李生,赵铁军.Chinese Information Processing and Its Prospects[J].Journal of Computer Science & Technology,2006,21(5):838-846. 被引量：1
4何琳,黄水清,徐彩琴.基于重要句群检索性能比较研究[J].中国图书馆学报,2009,35(4):58-63. 被引量：1
5卢小平.自动编制文摘技术研究综述[J].现代情报,2009,29(10):221-225.
6陈桂林,王永成.Internet网络信息自动摘要的研究[J].高技术通讯,1999,9(2):33-36. 被引量：18
7徐凡,朱巧明,周国栋.篇章分析技术综述[J].中文信息学报,2013,27(3):20-32. 被引量：15
8徐凡,朱巧明,周国栋,王明文.衔接性驱动的篇章一致性建模研究[J].中文信息学报,2014,28(3):11-21. 被引量：1
9帕提.胡赛因.哈萨克文信息检索停用词表的统计方法[J].电脑知识与技术,2013,9(1X):590-594.
10金博,滕弘飞,史彦军,王丹虹.机辅写作:样本库中写作材料检索方法[J].大连理工大学学报,2002,42(5):616-620. 被引量：2

同被引文献9

1何建章.汉语科技文献自动抽词的探讨与试验[J].情报科学,1987,8(4):35-45. 被引量：3
2李中.汉语文献自动标引的技术途径及展望[J].情报科学技术,1990,(4):34-37.
3Chen Pei-min, Kuo Fong-chou.An information retrieval system based on a user profile[J]. Journal of Systems and Software, 2000, 154( 1 ):3 - 8.
4Dave Raggctt. Clean up you Web pages with HTML TIDY [EB/OL]. http://www. w3. org/People/Raggett/tidy/2003 - 07 - 04.
5Luhn H P. The automatic creation of literature abstracts. IBM Journal of Research and Development[J]. 1958, 2 (2): 159- 165.
6何新贵,彭甫阳.中文文本的关键词自动抽取和模糊分类[J].中文信息学报,1999,13(1):9-15. 被引量：54
7宋斌,余凯.基于Agent的个性化搜索模型[J].南京理工大学学报,2002,26(3):295-298. 被引量：7
8陈培久.汉语科技文献标题的自动标引试验[J].情报学报,1983,2(2):113-120. 被引量：9
9顾立帆,王永成.联想树分析法及其在无词库中文自动标引中的应用[J].情报学报,1992,11(5):354-360. 被引量：9

引证文献2

1耿焕同,陈少军,罗永龙.面向主题的互联网信息智能获取与处理工具[J].安徽师范大学学报（自然科学版）,2004,27(4):387-390. 被引量：2
2于琨,糜仲春,蔡庆生.可应用于互联网的自学习中文关键词抽取算法[J].中国科学技术大学学报,2002,32(3):381-384. 被引量：8

二级引证文献10

1张友华,熊范纶.基于句子相关度的文本自动分类[J].中国科学技术大学学报,2006,36(5):540-545. 被引量：4
2张庆国,薛德军,张振海,张君玉.海量数据集上基于特征组合的关键词自动抽取[J].情报学报,2006,25(5):587-593. 被引量：17
3刘远超,吴冲,王晓龙.基于多知识源融合的关键词重要性评价研究[J].哈尔滨工业大学学报,2007,39(7):1138-1141.
4唐崇忻.基于华文教育主题的专业搜索引擎的结构分析与程序设计[J].现代情报,2007,27(7):62-64. 被引量：1
5唐崇忻.面向华文教育主题的专业搜索引擎的研究与设计[J].晋图学刊,2007(6):38-41. 被引量：1
6刘卓.K-最邻近算法在文本自动分类中的应用[J].苏州市职业大学学报,2010,21(2):58-60.
7刘卓,徐斌.分层聚类算法在文本挖掘中的应用[J].网络安全技术与应用,2010(7):61-62.
8卞真旭.一种关键词抽取方法研究[J].安徽电气工程职业技术学院学报,2011,16(B10):149-153.
9胡局新,鞠训光.自学习分词算法在科研项目查重系统中的应用[J].科技通报,2013,29(6):14-16. 被引量：1
10丁祎姗,杜彦辉,朱衍丞,聂世民.基于知识图谱的国内关键词抽取技术研究[J].软件导刊,2020,19(2):273-277. 被引量：6

软件学报

2000年第3期

浏览历史

内容加载中请稍等...