利用串匹配技术实现网上新闻的主题提取(英文) 被引量：11

Extracting Subject from Internet News by String Match

下载PDF

导出

摘要从文本中提取主题串是自然语言处理的重要基础之一.传统的提取方法主要是依据“词典加匹配”的模式.由于词典的更新速度无法同步于网上新闻中新词汇涌现的速度,而且词典的内容也无法完全涵盖网上新闻的范围, 因此这种方法不适用于网上新闻的主题提取.提出并实现了一种不用词典即可提取新闻主题的新方法.该方法利用网上新闻的特殊结构,在标题和正文间寻找重复的字串.经过简单地处理,这些字串能够较好地反映新闻的主题.实验结果显示该方法能够准确、有效地提取出绝大部分网上新闻的主题,满足新闻自动处理的需要.该方法同样适用于其它亚洲语言和西方语言. Subject extraction from a text is very important for natural language processing. Traditional methods mainly depend on the mode of 搕hesaurus plus match? It is not fit to process Internet news because of its limited volume and slow update speed. After analyzing the news structure carefully, this paper presents a new practical method to extract news subjects without thesaurus, and give the main implementing procedure. Instead of large thesaurus, it uses the special structure of Internet news to find the repeated strings. These repeated strings could express the news subjects very well. Experimental results show that this method can extract the most important subject strings from most of Internet news rapidly and efficiently. Moreover, this method is equally efficient to other Asian languages such as Japanese and Korean, as well as other western languages.

作者尹中航王永成蔡巍韩客松

机构地区上海交通大学电子信息学院

出处《软件学报》 EI CSCD 北大核心 2002年第2期159-167,共9页 Journal of Software

基金 Supported by the National Natural Science Foundation of China under Grant No.60082003 (国家自然科学基金)

关键词网页信息处理网上新闻主题提取自然语言处理串匹配技术 Web information processing Internet news subject extraction string match thesaurus

分类号 TP393.092 [自动化与计算机技术—计算机应用技术] TP391.12 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1中国互联网络信息中心.关于中国互联网络发展状况的统计[J].统计报告,2001,.
2Gao, Jian-fang. An empirical study of CLIR at MSCN. In: Proceedings of theInternational Workshop ILT&CIP-2001 on Innovative Language Technology and ChineseInformation Processing. German Research Center for Artificial Intellige nce and ShanghaiJiao Tong University, Shanghai, 2001. 55～62.
3Hsieh, Ying-chun, Huang, Shyue-shuo. A general model of representing the content ofscience news using XML. In: Proceedings of the 3rd Symposium of Information Cross-Straits.Press of Taiwan Chenggong University, 2001. 143～148.
4陈桂林,王永成.Internet网络信息自动摘要的研究[J].高技术通讯,1999,9(2):33-36. 被引量：18

二级参考文献5

1王建波,杜春玲,王开铸.基于篇章理解的自动文摘研究[J].中文信息学报,1995,9(3):33-42. 被引量：12
2骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
3吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
4高军，Communications COLIPS，1996年，6卷，2期，87页
5王永成,许慧敏.OA-1.4 版中文自动摘要系统[J].高技术通讯,1998,8(1):19-23. 被引量：9

共引文献17

1王建英,张辉.基于社会化媒体的众包灾害医学救援初探[J].灾害医学与救援（电子版）,2014(3):162-164.
2王志琪,王永成,刘传汉.论自动文摘及其分类[J].情报学报,2005,24(2):214-221. 被引量：2
3黎琳,赵英.Web内容挖掘在数字图书馆中的应用[J].图书馆学研究,2006(2):19-21. 被引量：9
4卢雪峰.基于WEB挖掘的用户个性化配置方案研究[J].中国科技信息,2007(24):121-122.
5王建华.同声传译中的视译记忆实验研究[J].中国翻译,2009,30(6):25-30. 被引量：18
6王成全.基于专业词典的文本摘要系统的探讨[J].林区教学,2008,0(2):41-43.
7王永成,刘功申,刘传汉,胡佩华,孙展.论文本的自动摘要[J].中国索引,2003,0(2):34-39. 被引量：1
8李蕾,钟义信,郭祥昊.面向特定领域的理解型中文自动文摘系统[J].计算机研究与发展,2000,37(4):493-497. 被引量：14
9李蕾,钟义信.自动文摘系统中基于全信息词典的复杂语句分析方法及其实现[J].电子学报,2000,28(8):104-106. 被引量：2
10韩惠琴,刘柏嵩,董其军.知识发现在数字图书馆中的应用[J].大学图书馆学报,2001,19(1):16-19. 被引量：34

同被引文献72

1邓顺国.中文期刊论文标题情报性的调查与简要分析[J].图书情报知识,1985,2(1):48-52. 被引量：11
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
3陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
4许建潮,胡明.中文Web文本的特征获取与分类[J].计算机工程,2005,31(8):24-25. 被引量：24
5张琪玉.分类法主题法一体化自动标引系统的基本原理和方法[J].图书馆论坛,1995,15(6):3-4. 被引量：21
6周全明.论机辅抽词标引及其规则[J].图书情报工作,1995,39(3):44-49. 被引量：4
7罗杰,陈力,夏德麟,王凯.基于新的关键词提取方法的快速文本分类系统[J].计算机应用研究,2006,23(4):32-34. 被引量：17
8张云涛,龚玲,王永成.基于综合方法的文本主题句的自动抽取[J].上海交通大学学报,2006,40(5):771-774. 被引量：16
9贾焰,王永恒,杨树强.基于本体论的文本挖掘技术综述[J].计算机应用,2006,26(9):2013-2015. 被引量：17
10李伟男,鄂跃鹏,葛敬国,钱华林.多模式匹配算法及硬件实现[J].软件学报,2006,17(12):2403-2415. 被引量：42

引证文献11

1张雷生 ,万绍俊 ,许鹏文 .简单中文自动摘要系统研究[J].装备指挥技术学院学报,2004,15(3):105-109. 被引量：1
2陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
3雷震,谢毓湘,吴玲达.一种基于反例样本修剪支持向量机的事件追踪算法[J].小型微型计算机系统,2006,27(8):1472-1477. 被引量：1
4蔡巍,王永成,尹中航.一种无词典的从Web新闻页面抽取主题的算法[J].情报学报,2008,27(1):12-17. 被引量：2
5朱恒民,马静,黄卫东.基于领域本体的中文Web文本主题特征抽取方法[J].情报理论与实践,2008,31(2):286-288. 被引量：5
6蔡巍,王英林,尹中航.基于主题提取与兼类噪声消除新方法的自动分类系统[J].情报科学,2009,27(10):1551-1554.
7蔡巍,王英林,尹中航.基于网上新闻语料的Web页面自动分类研究[J].情报科学,2010,28(1):124-127. 被引量：3
8刘金岭,谈芸,李健普,袁娜.基于多因素的中文文本主题自动抽取方法[J].计算机技术与发展,2010,20(7):72-75. 被引量：3
9朱永强,江雪.中文多模式匹配算法性能的分析与研究[J].计算机技术与发展,2014,24(2):67-70. 被引量：1
10万国,张桂平,白宇,朱耀辉.基于特征加权的新闻主题句抽取[J].中文信息学报,2017,31(5):120-126. 被引量：7

二级引证文献42

1田俊华.基于自然语言提问的自动答疑系统设计[J].现代远程教育研究,2005,17(1):48-51. 被引量：10
2吴玲达,雷震,老松杨,雷永林.基于局部话题句群的事件相关多文档摘要研究[J].计算机仿真,2006,23(11):263-267. 被引量：2
3陈炯,张永奎.基于加权信息论的突发事件新闻主题抽取方法[J].计算机应用,2008,28(B06):150-151. 被引量：5
4周进华,刘贵全.基于衰减词共现图的多文档摘要研究[J].小型微型计算机系统,2009,30(1):173-177. 被引量：4
5何维,王宇.基于句子关系图的网页文本主题句抽取[J].现代图书情报技术,2009(3):57-61. 被引量：9
6杨勇涛.文本自动摘要提取算法[J].成都大学学报（自然科学版）,2009,28(2):142-145. 被引量：4
7裘江南,李丽冬,吴力文.客观知识体系中的相关性研究[J].情报学报,2009,28(3):362-367. 被引量：2
8张永奎,张晴,王磊.面向信息处理的突发事件新闻语料库建设与应用研究[J].山西大学学报（自然科学版）,2009,32(4):546-551. 被引量：8
9司徒俊峰,曹树金.面向个性化服务的信息组织本体模式[J].情报理论与实践,2009,32(11):93-97. 被引量：5
10蔡巍,王英林,尹中航.基于网上新闻语料的Web页面自动分类研究[J].情报科学,2010,28(1):124-127. 被引量：3

1周锡生.“新华网,全球新闻网”[J].新闻战线,2000(10):47-48. 被引量：2
2杨春霞.小学生网络运用的现状及对策初探[J].中国信息技术教育,2010(20):9-9.
3温凤兰.网上新闻随意挑[J].视窗世界,2003(5):113-113.
4任建平.互联网时代的家庭[J].互联网世界,2000(11):71-72.
5嵇可可.基于ASP的网上新闻发布系统[J].大众科技,2008,10(7):33-34.
6王晓燕.将新闻放在口袋中——利用PocketRSS进行随身浏览[J].大众硬件,2005(8):113-115.
7水晶.加大字号看我的[J].网友世界,2006(21):34-34.
8温凤兰.网上新闻随意挑[J].电脑校园,2003(5):55-56.
9陈莉.对网上新闻发言人的期待[J].信息化建设,2010(12):43-44.
10闵大洪.从YAHOO新闻到Google新闻[J].中国传媒科技,2004(10):24-25. 被引量：1

软件学报

2002年第2期

浏览历史

内容加载中请稍等...