一种无词典的从Web新闻页面抽取主题的算法被引量：2

A Practical Algorithm for Extracting Subject from Web Pages without Thesaurus

下载PDF

导出

摘要主题抽取是自然语言处理研究的重要问题之一。目前流行的方法是“词典＋匹配”，但该方法用于处理动态变化的网页信息时，词典难于及时更新等弊病就表现出来。本文作者在研究中文新闻网页内容、结构特点的基础上，提出了一种利用Web页面结构无需词典的主题抽取算法。我们使用该方法对新华网财经新闻语料1000篇进行主题抽取实验，并与手工抽取的主题进行比较，结果表明，重合率高达93％以上。 Subject extraction is one of the important problems in natural language processing area. Traditional methods mainly depend on ＂thesaunts ＋ matching＂ mode. But problems arise when processing Internet news using this method, one is the limited volume of thesaurus compared with the uninterrupted emergence of new concepts in Internet nearly all the time. According to Web Chinese news page structure, we propose a new practical algorithm for extracting subject from Web pages without thesaurus. We do subject extraction experiment using 1,000 pieces of news corpus, compared with handcraft, coincidence ratio attain 93 %.

作者蔡巍王永成尹中航

机构地区上海交通大学计算机科学与工程系

出处《情报学报》 CSSCI 北大核心 2008年第1期12-17,共6页 Journal of the China Society for Scientific and Technical Information

基金本文受国家863项目（No.2002AA119905）及国家自然科学基金项目（No.60082003）资助.

关键词主题提取 WEB页面超链接 subject extraction, Web pages, hyperlinks

分类号 G212 [文化科学—新闻学] TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1张琪玉.分类法主题法一体化自动标引系统的基本原理和方法[J].图书馆论坛,1995,15(6):3-4. 被引量：21
2许建潮,胡明.中文Web文本的特征获取与分类[J].计算机工程,2005,31(8):24-25. 被引量：24
3邓顺国.中文期刊论文标题情报性的调查与简要分析[J].图书情报知识,1985,2(1):48-52. 被引量：11
4黄科,马少平.基于统计分词的中文网页分类[J].中文信息学报,2002,16(6):25-31. 被引量：16
5尹中航,王永成,蔡巍,韩客松.利用串匹配技术实现网上新闻的主题提取(英文)[J].软件学报,2002,13(2):159-167. 被引量：11
6周全明.论机辅抽词标引及其规则[J].图书情报工作,1995,39(3):44-49. 被引量：4

二级参考文献18

1张琪玉.汉语关键词法探讨[J].图书馆论坛,1993,13(1):3-7. 被引量：7
2周健湘.一种简明而规范的标引规则[J].情报学报,1994,13(1):70-74. 被引量：2
3王还常宝儒.现代汉语频率词典[M].北京:北京语言学院出版社,1986..
4Yang Y. An Evaluation of Statistical Approaches to Text Categorization. Journal of Information (Retrieval 1 ),1999:69-90.
5Mladenic M. Feature Subset Selection in Text-learning. http://www.ai.ijs.si/DunjaMladenic.
6Wulfekuhler M R,Punch W F,Finding Salient Features for Personal Web Page Categorization. In Proc.of 6th International World Wide Web Conference,1997.
7Salton G,Wong A,Yang C. A Vector Space Model for Automatic Indexing. Communications of the ACM,1995,18:613-620.
8Lin Shian-hua. Extracting Classification Knowledge of Intemet Documents With Mining Term Associations: a Semantic Approach. In Proceedings of International ACM SIGIR Conference on Research and Development in Information Retrieval,1998:241-240.
9Cohen W J,Singer Y. Context-sensitive Learning Methods for Text Categorization. In SIGIR'96:Proc. 19th Annual Int. ACM SIGIR Conf.on Research and Development in Information Retrieval,1996:307-315.
10Yang Y,Pedersen J O. A Comparative Study on Feature Selection in Text Categorization. In the 14th Int. Conf. on Machine Learning,1997:412-420.

共引文献80

1张雷生 ,万绍俊 ,许鹏文 .简单中文自动摘要系统研究[J].装备指挥技术学院学报,2004,15(3):105-109. 被引量：1
2周新栋,王挺.基于N元语言模型的文本分类方法[J].计算机应用,2005,25(1):11-13. 被引量：11
3陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
4乔强,李欣荣.专家系统在图书编目中的应用[J].西华大学学报（哲学社会科学版）,2005,24(2):92-94. 被引量：4
5万中英,王明文,廖海波.基于投影寻踪的中文网页分类算法[J].中文信息学报,2005,19(4):60-67. 被引量：11
6王军辉,胡铁军,李丹亚,钱庆,方安.中文生物医学文本无词典分词方法研究[J].情报学报,2011,30(2):197-203. 被引量：4
7蒋歆.《中国分类主题词表》(第二版)电子版在文献标引中的应用[J].贵图学刊,2006(1):32-33. 被引量：2
8毛伟,徐蔚然,郭军.基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统[J].中文信息学报,2006,20(3):29-35. 被引量：17
9王圆,孙铁利,李杨.Web文本挖掘中的特征表示和特征提取[J].电脑知识与技术,2006,1(5):67-68. 被引量：2
10蒋歆.《中国分类主题词表》(第二版)电子版在文献标引中的应用[J].山东图书馆季刊,2006(2):66-69. 被引量：1

同被引文献23

1张云涛,龚玲,王永成.基于综合方法的文本主题句的自动抽取[J].上海交通大学学报,2006,40(5):771-774. 被引量：16
2廉站俊,吕学强,张玉杰,施水才.基于句子相似度计算的信息抽取[J].现代图书情报技术,2007(6):38-41. 被引量：4
3Salton G,Allan J.Automatic Text Decomposition and Structuring[J].Information Processing and Management,1996,32 (2):127-138.
4Salton G,Singhal A,Buckley C,et al.Automatic Text Decomposition Using Text Segments and Text Themes[C].In:Proceedings of the Seventh ACM Conference on Hypertext.NY:ACM New York,1996.53-65.
5Mitra M,Singhal A,Buckley C.Automatic Text Summarization by Paragraph Extraction[C].In:Proceedings of ACL' 97/ACL' 97.Worksho Pon Intelligent Scaleable Text Summarization,Madrid.NJ:Assoc.Compnt.Linguistics,1997:39-46.
6Chatterjee N.A Statistical Approach for Similarity Measurement between Sentences for EBMT[C].In:Proceedings of Symposium on Translation Support Systems STRANS-2001,2001.
7Chen K,Fan XZ,Liu J,et al.A New Approach to Compute the Semantic Similarity of Chinese Question Sentence[C].In:Proceedings of the Sixth International Conference on Machine Learning and Cybernetics(ICMLC 2007),Hong Kong.NJ:IEEE,2007:1830-1835.
8Li Y,McLean D,Bandar Z A,et al.Sentence Similarity Based on Semantic Nets and Corpus Statistics[J].IEEE transactions on knowledge and data engineering,2006,18(8):1138-1150.
9Che W X,Jiang J M,Su Z,et al.Improved-Edit-Distance Kernel for Chinese Relation Extraction[C].In:The Second International Joint Conference on Natural Language Processing (IJCNLP05),Jeju Korea.Springer,2005:134-139.
10哈尔滨工业大学信息检索研究室.同义词词林(扩展版)[EB/OL].[2008-05-19].http://www.ir-lab.org/.

引证文献2

1何维,王宇.基于句子关系图的网页文本主题句抽取[J].现代图书情报技术,2009(3):57-61. 被引量：9
2蔡巍,王英林,尹中航.基于网上新闻语料的Web页面自动分类研究[J].情报科学,2010,28(1):124-127. 被引量：3

二级引证文献12

1王森,王宇.基于文本结构树的论文复制检测算法[J].现代图书情报技术,2009(10):50-55. 被引量：4
2刘红红,安海忠,高湘昀.基于文本复杂网络的内容结构特征分析[J].现代图书情报技术,2011(1):69-73. 被引量：5
3段晓丽,王宇.基于主题分割与PageRank算法的文本主题抽取[J].现代图书情报技术,2010(12):34-39. 被引量：2
4孔胜,王宇.基于句子相似度的文本主题句提取算法研究[J].情报学报,2011,30(6):605-609. 被引量：12
5王力,李培峰,朱巧明.一种基于LDA模型的主题句抽取方法[J].计算机工程与应用,2013,49(2):160-164. 被引量：10
6薛春香,张玉芳.面向新闻领域的中文文本分类研究综述[J].图书情报工作,2013,57(14):134-139. 被引量：25
7卢玲,杨武,刘恒洋.差错网络的文本分类反馈校正方法[J].重庆邮电大学学报（自然科学版）,2014,26(6):790-795. 被引量：1
8王子璇,乐小虬,何远标.基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究[J].数据分析与知识发现,2017,1(4):1-8. 被引量：12
9赵红红,谭红叶,寻丽娜,王蓉.基于时间片段和主题片段的时间关系识别[J].山东大学学报（理学版）,2017,52(6):32-39. 被引量：1
10蒲梅,周枫,周晶晶,严馨,周兰江.基于加权TextRank的新闻关键事件主题句提取[J].计算机工程,2017,34(8):219-224. 被引量：11

1冯亮.QQ新闻去无踪[J].电脑迷,2007,0(18):77-77.
2何云.互联网上找“嫦娥”——百度视频搜索指南[J].电脑爱好者（普及版）,2008,0(2):52-53.
3陈增光.新媒体时代，网站新闻的操作策略[J].网络传播,2008(9):58-59.
4如何查看文字版新闻[J].电脑迷,2009(3):92-92.
5王怡.Web站点应该包括的十项内容(二)[J].网络与信息,1999,13(3):59-59.
6彭同坠.Web新闻正文信息抽取技术研究[J].科教文汇,2008(36):278-278.
7生铁.细节与习惯决定一切[J].大众软件,2008(12):135-135.
8霍炬.Ajax Web 2.0的催化剂[J].程序员,2005(12):84-85. 被引量：13
9孙欣.心灵暖阳[J].法律与生活,2010(1):5-5.
10李悦.CMS发布静态新闻页面浏览计数功能实现[J].软件导刊,2015,14(2):40-41. 被引量：1

情报学报

2008年第1期

浏览历史

内容加载中请稍等...

一种无词典的从Web新闻页面抽取主题的算法被引量：2

参考文献6

二级参考文献18

共引文献80

同被引文献23

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

一种无词典的从Web新闻页面抽取主题的算法 被引量：2

参考文献6

二级参考文献18

共引文献80

同被引文献23

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

一种无词典的从Web新闻页面抽取主题的算法被引量：2