期刊文献+

基于增量的贝叶斯算法在网页文本中的应用

下载PDF
导出
摘要 如今文本自动分类技术发展已较为成熟,中文网页的分类也是自动分类技术的应用之一.分类精度依赖于分类算法,贝叶斯算法在网页分类中有很广泛的使用,但它需要大量且已标记的训练集,而获得大量带有类别标注的样本代价很高.本文以中文网页信息增量式的学习作为研究对象,利用网页已验信息处理训练集增量问题,提出一种改进的增量式的贝叶斯分类算法,研究利用未标记的中文网页来提高分类器的性能,并进行相关实验对比和评价.
作者 屈军
出处 《赤峰学院学报(自然科学版)》 2013年第13期23-24,共2页 Journal of Chifeng University(Natural Science Edition)
  • 相关文献

参考文献3

二级参考文献20

  • 1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量:20
  • 2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量:95
  • 3TomMMitchell.机器学习[M].北京:机械工业出版社,2003..
  • 4ChengXiang Zhai .A Note on the Expectation-Maximization (EM) Algorithm[A] .10th Int'l Conf on Information and Knowledge Management (CIKM 2001)[C].2001.403-410.
  • 5B Shahshahani,D Landgrebe.The Elect of Unlabeled Samples in Reducing the Small Sample Size Problem and Mitigrating the Hughes Pheonomenon[J].IEEE Trans on Geoscience and Remote Sensing,1994 ,32(5):1087-1095.
  • 6T Zhang,F Oles.A Probability Analysis on the Value of Unlabeled Data for Classification Problems[A].Proc of the 17th Int'l Conf on Machine Learning(ICML 2000)[C].2000.1191-1198.
  • 7Kamal Nigamy,Andrew Kachites Mccallumzy,Sebastian Thruny,et al.Text Classification from Labeled and Unlabeled Documents Using EM [M].Boston:Kluwer Academic Publishers,2000.
  • 8Seong-Bae Park,Byoung-Tak Zhang .Automatic Webpage Classification Enhanced by Unlabeled Data[A].IDEAL 2003.LNCS 2690[C].2003.821-825.
  • 9Lam Lai Yin,Dominic Savio.learned text categorization by backpropagation neural network[D].A Thesis for the Degree of Master of Philosophy. 1996-08
  • 10David Dolan Lewis. Representation and Learning in Information Retrieval[D].PhD thesis. Graduate School of the University of Maassachusetts, 1992

共引文献396

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部