期刊文献+

基于偏最小二乘法的Logistic模型在文本分类中的应用

下载PDF
导出
摘要 鉴于文本分类具有高维性和高相关性的特点,已有文本分类研究采用能够有效降维和消除共线性的主成分Logistic模型。然而,这种模型定式在提取主成分时没有考虑解释变量与被解释变量之间的相关性,可能导致与文本分类关系密切的解释变量信息的丢失,从而削弱模型的分类能力。考虑到这一缺陷,在分析中引入偏最小二乘方法,并对20newsgroups语料库进行分类,结果显示,在高维分类时,其分类性能相对于主成分Logistic模型具有明显优势,表明这种方法用于文本分类的有效性。
出处 《商业经济》 2012年第2期30-32,共3页 Business & Economy
  • 相关文献

参考文献2

  • 1Jian Zhang, Yiming Yang,Bryan Kisiel. A scalahility analysis of classifiers in text categorization[C].Proceedings of the 26th ACM International Conference on Research and Development in Information Retrieval (SIGIR'03),2003: 96-103.
  • 2Fan Li,Yiming Yang. Robustness of regularized linear classification methods in text categorization[C].Preceedings of the 26th ACM International Conference on Research and Development in Information Retrieval (SIGIR'03),2003: 190-197.

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部