期刊文献+

中文网页分类研究与系统实现 被引量:12

Study and System Implementation of Chinese Web-page Classification
下载PDF
导出
摘要 近年来,网页分类研究逐渐成为网络挖掘和文本挖掘的研究热点,针对中文网页分类的研究也日益增多。本文详细介绍了一个中文网页分类系统的设计与实现,并且提出了一些网页预处理和特征处理的方法。实验结果表明,本文的方法可以使中文网页分类性能由81.5%提高至94.9%。 Web-page classification has become a hotspot in the fields of Web mining and text mining in recent years. Studies towards Chinese Web-page are more and more. A detailed design and implementation of a Chinese Web-page classification system is introduced, and some methods on Web-page preprocessing and feature processing are proposed. Experimental results show that the proposed methods can improve the effectiveness of Chinese Web-page classification from 81.5% to 94. 9%.
出处 《计算机科学》 CSCD 北大核心 2007年第6期210-213,共4页 Computer Science
基金 国家自然科学基金项目(60473115)资助。
关键词 中文网页分类 网页预处理 特征抽取 Chinese Web-page classification,Web-page preprocessing,Feature extraction
  • 相关文献

参考文献8

二级参考文献14

  • 1赵伯璋 徐力.计算机中文信息处理(下册)[M].北京:宇航出版社,1988..
  • 2周水庚.中文文本数据库的若干关键技术研究:博士论文[M].上海:复旦大学,2000..
  • 3王还 常宝儒.现代汉语频率词典[M].北京:北京语言学院出版社,1986..
  • 4冯是聪 单松巍 张志刚 等.一个中文网页数据集及其分类体系[A]..海峡两岸技术交流会[C].南京,2002-10.121-129.
  • 5Yiming Yang,Jan O Pedersen.A comparative Study on Feature Selection in Text Categorization[C].In :Proceedings of the Fourteenth International Conference on Machine Leaming(ICML'97), 1997.
  • 6Yiming Yang,Xin Liu.A re-examination of text categorization methods[C].In:Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval SIGIR'99,1999:42---49.
  • 7Yiming Yang.A study on thresholding strategies for text categorization[C].In:Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR'01),2001.
  • 8赵伯璋,计算机中文信息处理.下,1988年
  • 9周水庚,博士论文,2000年
  • 10邹淘,中文信息学报,1999年,13卷,3期,26页

共引文献110

同被引文献115

引证文献12

二级引证文献38

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部