期刊文献+

文本自动分类新探究 被引量:1

下载PDF
导出
摘要 文本自动分类是一种有效的组织信息和管理信息的工具.传统分类方法一般在分类效果和运行效率两者上不可兼得.通过综合Rocchio和KNN两种分类方法的优点,设计了一种基于多代表点的文本分类方法,该方法通过对各类挖掘出多个有效的代表点(真实或虚拟的),再使用基于这些代表点的Rocchio和KNN方法进行分类.实验表明,该方法以较少的训练时间达到令人满意的分类效果,并且能很好解决不平衡类问题,实验结果显示该方法能达到与SVM相当的分类效果.
作者 陈可华
出处 《赤峰学院学报(自然科学版)》 2011年第4期34-36,共3页 Journal of Chifeng University(Natural Science Edition)
基金 福建省教育厅B类科研项目(JB09235) 宁德师范学院科研资助项目(2009303)
  • 相关文献

参考文献10

  • 1Sebastiani F. Machine learning in automated text catego- rization[J]. ACM Computing Surveys, 2002,34(1):1-47.
  • 2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量:383
  • 3范明,范宏建.数据挖掘导论[M].北京:人民邮电出版社,2006.
  • 4石志伟,刘涛,吴功宜.一种快速高效的文本分类方法[J].计算机工程与应用,2005,41(29):180-183. 被引量:15
  • 5Chih-Chung Chang and Chih-Jen Lin, LIBSVM :a li- brary for support vector machines, 2001. Software avail- able at http://www.csie.ntu.edu.tw/-cjlin/libsvm.
  • 6Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent Dirichlet Allocation. Journal of Machine Learning Re- search, 3, 993-1022.
  • 7http://www.nlp.org.cn/docs/download.php ?doc_id =294.
  • 8http://www.n/p.org.cn/docs/down/oad.php ?doc._id=295.
  • 9http://www.cs.cmu.edu/afs/cs/project/theo -11/www/naive-bayes/20 newsgroups.tar.gz.
  • 10中国科学院中文分词工具(ICTCLAS)[EB/OL].http://ictclas.org/.

二级参考文献16

  • 1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量:20
  • 2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量:95
  • 3Lewis D D,Knowles K A.Threading electronic mail:A preliminary study[J].Information Processing and Management, 1997 ; 33 (2) :209- 217.
  • 4S T Dumais,J Platt,D Heckerman et al.Inductive learning algorithms and representations for text categorization[C].In:Proc ACM-Conf Information and Knowledge Management (CIKM98) ,1998-11:148-155.
  • 5Salton G.Automatic information organization and retrieval[M].Addison-Wesley,Reading PA, 1968.
  • 6Salton G,Wong A,Yang C S.A vector space model for automatic indexing[J].Comm ACM,1975 ; 18 ( 11 ) :613~620.
  • 71Salton G,Buckley C.Term weighting approaches in automatic text retrieval[J].In Information Processing & Management, 1988 ; 24 (5) : 513~523.
  • 8Singhal A.AT&T at TREC-6[C].In:The Sixth Text REtrieval Conf (TREC-6) ,NIST SP 500-240,1998:215~225.
  • 9R Weber,H-.l Schek,S Blott.A Quantitative Analysis and Performance Study for Similarlty-Search Mefllods in High-Dimensional Spaces[C].In:Proceedings of the 24rd International Conference on Very Large Data Bases, 194~205.
  • 10Y Yang, An evaluation of statistical approach to text categorization[R]. In Technical Report CMU-CS-97-127 ,Computer Science Department,Carnegie Mellon University,1997.

共引文献430

同被引文献7

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部