期刊文献+

基于误差反馈的高速Web文本流快速近似分类

Fast Approximate Classification for High-Speed Web Text Stream Based on Error-Feedback
下载PDF
导出
摘要 针对Web文本分类的低效率问题,利用Web文本URL的特性,提出了一种混合URL及文本语义进行高速Web文本流的快速近似分类方法.首先通过学习训练样本和专家指定等方式得到使用URL和不使用URL进行分类的两个集合:肯定集合和否定集合.在分类过程中,得到Web文本的URL,从中提取和剥离出URL的关键特性对其进行建模,而后使用根据模型所属集合选择分类算法进行分类.定时对两个集合进行回归测试,根据误差及时更新两个集合以保证分类精度.实验表明,与传统文本分类方法、混合Link-Based和Content-Based的方法及纯URL-Based方法相比,该方法在不影响精度的前提下,可大幅度提高分类的性能.
作者 袁志坚 贾焰
出处 《计算机研究与发展》 EI CSCD 北大核心 2007年第z3期13-17,共5页 Journal of Computer Research and Development
基金 国家"八六三"高技术研究发展计划基金项目(2006AA01Z451) 国防预研基金项目
  • 相关文献

参考文献14

  • 1[1]Fabrizio Sebastiani.Machine learning in automated text categorization.ACM Computing Surveys,2002,34(1):1-47
  • 2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量:381
  • 3[3]Soumen Chakrabarti,Byron Dom,Piotr Indyk.Enhanced hypertext categorization using hyperlinks.SIGMOD Record,1998,27(2):307-318
  • 4[4]J Furnkranz.Exploiting structural information for text classification on the WWW.In:Intelligent Data Analysis.Amsterdam:Springer-Verlag,1999.487-498
  • 5[5]P vel Calado,Marco Cristo,Edleno Moura,et al.Combining link-based and content-based methods for Web document classification.In:Proc of the 12th Int'l Conf on Information and Knowledge Management.New York:ACM Press,2003
  • 6[6]D Cohn,T Hofmann.The missing link-A probabilistic model of document content and hypertext connectivity.Advances in Neural Information Processing Systems,2001,10(13):430-436
  • 7[7]H J Oh,S H Myaeng,M H Lee.A practical hypertext catergorization method using links and incrementally available class information.In:Proc of the 23rd Annual Int'l ACM SIGIR Conf on Research and Development in Information Retrieval.New York:ACM Press,2000.264-271
  • 8[8]D Mladenic,M Grobelnik.Predicting content from hyperlinks.The ICML-99 Workshop on Machine Learning in Text Data Analysis,J Stephan Institute,Ljubljana,Slovenia,1999
  • 9[9]Y Yang,S Slattery,R Ghani.A study of approaches to hypertext categorization.Journal of Intelligent Information Systems,2002,18(2):219-241
  • 10[10]E J Glover,K Tsioutsiouliklis,S Lawrence,et al.Using Web structure for classifying and describing Web pages.In:Proc of the 11th Int'l Conf on World Wide Web.New York:ACM Press,2002.562-569

二级参考文献3

共引文献380

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部