期刊文献+

一种基于类别分布信息的中文文本分类模型 被引量:1

A Model of Chinese Text Categorization Based on Sort Distribution Information
原文传递
导出
摘要 特征降维是文本分类面临的主要问题之一。首先通过x^2分布对特征项进行选择,然后使用一种改进的基于密度聚类方法对选择后的特征项进行聚类,借助类别分布信息,在尽量减少信息缺失的前提下先后两次对文本特征维数进行了压缩;在基于类别概率分布的模式下实现文本的矩阵表示,借助矩阵理论进行文本分类。试验结果表明,该方法的分类效率较高。 The feature reduction is one of the main problems in text classification ,Firstly, the authors select features by using CHI distribution. Secondly,the authors cluster the selected features by using an improved method which based on density dustering. In virtue of the sort distribution information, the authors reduce the number of features twice and the information lost few, Lastly, based on the sort of texts, the authors use the distributing of probability to express text with matrix, and realizes the text categorization by using matrix norm. The experiment shows that this method has a higher precision for the text classification.
出处 《图书情报工作》 CSSCI 北大核心 2008年第1期73-76,共4页 Library and Information Service
基金 国家自然科学基金资助项目“基于不完全信息的交互式群决策理论及其应用”(项目编号:70571087)研究成果之一
关键词 文本分类 特征选择 特征聚类 Bayes分布 文本表示 text categorization feature clustering bayes distributing text expressing feature selection
  • 相关文献

参考文献15

二级参考文献102

  • 1杨健,杨静宇,叶晖.Fisher线性鉴别分析的理论研究及其应用[J].自动化学报,2003,29(4):481-493. 被引量:97
  • 2钟敏娟,林亚平,陈治平.基于分类和关键词组抽取的信息检索算法[J].系统仿真学报,2004,16(5):1009-1012. 被引量:10
  • 3王煜,王正欧.基于模糊决策树的文本分类规则抽取[J].计算机应用,2005,25(7):1634-1637. 被引量:13
  • 4黄昌宁 等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
  • 5.SMART 1992,源代码下载[EB/OL].ftp.cs.cornell.edu/ftp/pub/smart/smart.11.0.tar.Z,.
  • 6孙斌.Relative Information and a Sense Matrix Model for IR.TR-003,ICL PKU.北京大学计算语言所报告.2003-11.语言所技术报告编号2004-3[EB/OL].http:∥icl.pku.edu.ch/icl_tr/,.
  • 7Duda R, Hart P. Pattern Classification and Scene Analysis [M].New York: Wiley, 1973:113 -120.
  • 8Sammon J W. An optimal discriminant plane[ J]. IEEE Transactions on Computer, 1970,19:826 - 829.
  • 9Foley D H, Sammon J W Jr. An optimal set of discriminant vectors[J]. IEEE Transactions on Computer, 1975, 24(3): 281 -289.
  • 10Duchene J, Leclercq S. An optimal transformation for discriminant and principal component analysis [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1988, 10(6) : 978 -983.

共引文献552

同被引文献7

引证文献1

二级引证文献3

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部