期刊文献+

基于交叉覆盖算法的中文文本分类 被引量:8

Chinese Text Categorization Based on Alternative Covering Algorithm
下载PDF
导出
摘要 基于向量空间模型的文本分类过程中遇到的最大问题就是以词为特征项的向量维数太大,需要进行特征选取,而交叉覆盖算法的输入集是n维欧式空间的点集,可以忽略维数的大小,从而最大程度上精确地表示文本,然后再进行分类,能够大大提高正确率。将交叉覆盖算法作为一种分类算法来进行中文文本分类,取得了不错的效果,在封闭测试中的准确率达到98.32%。 During text categorization based on VSM, too large vector dimension becomes the most important problem, this vector regard word as feature selection vector. As the input of alternative covering algorithm is point sets distributed in the n-dimension space, it can ignore the size of dimension, express text in the most precision and improve precision of text categorization. This paper introduces alternative covering algorithm to categorize Chinese texts, good effects are obtained and exactness reaches 98.32% in close tests.
出处 《计算机工程》 EI CAS CSCD 北大核心 2006年第19期183-184,共2页 Computer Engineering
基金 安徽省高校青年教师科研资助计划项目(2005JQ1038)
关键词 文本分类 交叉覆盖算法 中文信息处理 Text categorization Alternative covering algorithm Chinese information processing
  • 相关文献

参考文献6

二级参考文献19

  • 1张铃,张钹.多层反馈神经网络的FP学习和综合算法[J].软件学报,1997,8(4):252-258. 被引量:24
  • 2黄萱青 吴立德.独立于语种的文本分类方法[M].,2000.37-43.
  • 3鲁松 白硕 等.文本中词语权重计算方法的改进[M].,2000.31-36.
  • 4卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用:博士论文[M].,2000..
  • 5Chen Q C,Neural Networks,1994年,5卷,7期,1477页
  • 6Baum E B,Neural Information Processing,1991年,904页
  • 7黄萱菁,2000 International Conference on Multilingual Information Processing,2000年,37页
  • 8鲁松,2000 International Conference on Multilingual Information Processing,2000年,31页
  • 9卜东波,博士学位论文,2000年
  • 10Yang Yiming,Proceedings of ACMSIGIR Conference on Research and Development in Information Retrieval(SIGIR),1999年,42页

共引文献507

同被引文献47

引证文献8

二级引证文献25

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部