期刊文献+

基于领域向量模型的新闻网页分类算法 被引量:1

下载PDF
导出
摘要 随着互联网中网页数量的激增,网页自动分类已经成为互联网技术中亟待解决的问题。提出一种领域向量模型的设计与构建方法,设计并实现一种针对新闻网页的基于领域向量模型的网页分类TSC(Topic Sensitive Classify)算法,从新的角度解决网页自动分类问题。首先,对大量的新闻网页URL进行分析,提取新闻网页的URL特征;然后,设计一个领域向量模型,对特定领域的新闻网页内容特征进行提取;最后,结合新闻网页URL特征和内容特征对新闻网页进行自动分类。实验结果表明,TSC算法分类效果比传统SVM和ID3等文本分类算法更优。
作者 潘澄
出处 《软件导刊》 2015年第7期57-60,共4页 Software Guide
基金 国家高技术研究发展计划(863)项目(2012AA011005)
  • 相关文献

参考文献7

  • 1FURNKRANZ J. Exploiting structural information for text classi- fication on the WWW[M]. Berlin Heidelberg: Springer, 1999 : 487- 497.
  • 2OH H J, MYAENG S H, LEE M H. A practical hypertext catergorization method using links and incrementally available class in formation[C]. Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval, ACM, 2000,264-271.
  • 3KAN M Y. Web page classification without the web page[C]. Proceedings of the 13th international World Wide Web conference on Alternate track papers & posters, ACM, 2004 : 262-263.
  • 4范焱,郑诚,王清毅,蔡庆生,刘洁.用Naive Bayes方法协调分类Web网页[J].软件学报,2001,12(9):1386-1392. 被引量:53
  • 5董静,林鸿飞,杨志豪.中文网页形式自动分类[c].第三届学生计算语言学研讨会论文集,2006.
  • 6于楠,朱靖波,陈文亮.领域知识库的构建机制[c].第二届全国学生计算语言学研讨会论文集,2004.
  • 7GLOVER E J, TSIOUTSIOULIKLIS K, LAWRENCE S, et al. Using web structure for classifying and describing web pages[C]. Proceedings of the llth international conference on World Wide Web. ACM,2002:562-569.

二级参考文献1

  • 1Lang K,Proc the 12th Int Conference on Machine Learning(ICML 95),1995年,331页

共引文献52

同被引文献17

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部