期刊文献+

基于不完备信息系统的文本分类研究与应用

Research and application of text classification based on incomplete information system
下载PDF
导出
摘要 在文本分类中,文本特征向量通常高达几千甚至上万维,给整个分类过程带来了相当庞大的计算量,因此进行有效的降维处理是非常重要的。在不完备信息系统理论的基础上,结合文本分类的特点,提出了一种量化容差关系和启发式的属性约简算法。实验证明该属性约简算法不仅能有效地降低文本特征向量的维度,同时能保证分类的正确率。 Document vectors are highly dimensional in text classification, possibly there are tens of thousands of dimension, which leads to a massive amount of calculation. Thus, it is important to decrease the dimension. In the paper, the authors present a quantitative tolerant relation and a heuristic algorithm for attribute reduction, combining theory of incomplete information systems with features of text classification. The experiment results illuminate the efficiency, for it can not only effectively reduce the dimension, but also maintain high accuracy of text classification.
出处 《重庆邮电学院学报(自然科学版)》 2006年第3期397-401,共5页 Journal of Chongqing University of Posts and Telecommunications(Natural Sciences Edition)
基金 国家自然科学基金(60373111 60573068) 重庆市教育委员会科学技术研究项目资助 重庆邮电大学科研基金(XJG0516)
关键词 文本分类 粗集 不完备信息系统 属性约简 text classification rough set incomplete information system attribute reduetion
  • 相关文献

参考文献10

二级参考文献24

  • 1黄萱青 吴立德.独立于语种的文本分类方法[M].,2000.37-43.
  • 2鲁松 白硕 等.文本中词语权重计算方法的改进[M].,2000.31-36.
  • 3卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用:博士论文[M].,2000..
  • 4Yang Yiming,Information Retrieval,1999年,1卷,1/2期,69页
  • 5Yang Yiming,Proceedings ICML 97 14th Int Conference on Machine Learning,1997年
  • 6李国臣,中文信息学报,1997年,13卷,4期,10页
  • 7黄萱菁,2000 International Conference on Multilingual Information Processing,2000年,37页
  • 8鲁松,2000 International Conference on Multilingual Information Processing,2000年,31页
  • 9卜东波,博士学位论文,2000年
  • 10Yang Yiming,Proceedings of ACMSIGIR Conference on Research and Development in Information Retrieval(SIGIR),1999年,42页

共引文献606

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部