基于偏最小二乘法的Logistic模型在文本分类中的应用

下载PDF

导出

摘要鉴于文本分类具有高维性和高相关性的特点,已有文本分类研究采用能够有效降维和消除共线性的主成分Logistic模型。然而,这种模型定式在提取主成分时没有考虑解释变量与被解释变量之间的相关性,可能导致与文本分类关系密切的解释变量信息的丢失,从而削弱模型的分类能力。考虑到这一缺陷,在分析中引入偏最小二乘方法,并对20newsgroups语料库进行分类,结果显示,在高维分类时,其分类性能相对于主成分Logistic模型具有明显优势,表明这种方法用于文本分类的有效性。

作者王燕秋田大钢

机构地区上海理工大学管理学院

出处《商业经济》 2012年第2期30-32,共3页 Business & Economy

关键词文本分类偏最小二乘法 LOGISTIC回归 20Newsgroups

分类号 F014.9 [经济管理—政治经济学]

引文网络
相关文献

参考文献2

1Jian Zhang, Yiming Yang,Bryan Kisiel. A scalahility analysis of classifiers in text categorization[C].Proceedings of the 26th ACM International Conference on Research and Development in Information Retrieval (SIGIR'03),2003: 96-103.
2Fan Li,Yiming Yang. Robustness of regularized linear classification methods in text categorization[C].Preceedings of the 26th ACM International Conference on Research and Development in Information Retrieval (SIGIR'03),2003: 190-197.

1郭建亚.对丁佰根生产函数的模型估计、科技进步测算及实证研究——用主成分分析法解决丁氏函数中的共线性问题[J].数量经济技术经济研究,1995,12(11):68-69.
2孙杨,许承明,夏锐.研发资金投入渠道的差异对科技创新的影响分析——基于偏最小二乘法的实证研究[J].金融研究,2009(9):165-174. 被引量：66
3高志刚,韩宇.资源型省区产业结构调整对能源消费影响的计量分析——以新疆为例[J].甘肃社会科学,2014(2):181-183. 被引量：6
4邓利娟,范芹.转型期台湾经济增长因素的实证研究——基于偏最小二乘法的分析[J].台湾研究集刊,2013(3):55-63. 被引量：5
5科学发展是根本[J].中国邮政,2007(3):1-1.
6刘胜俊.可持续发展与战略研究“定式”[J].未来与发展,1996,17(6):27-28. 被引量：2
7张远鹏,杨勇.中国对外直接投资区位选择的影响因素分析[J].世界经济与政治论坛,2010(6):34-46. 被引量：24
8梁丽娟.CPI与居民收入差距的实证分析[J].科技风,2013(21):239-239.
9夏新燕,石来斌.珠三角地区流通业对就业吸纳的贡献分析[J].商业时代,2011(15):25-27. 被引量：8
10中国公司治理:没有捷径和定式[J].决策探索,2010(4):84-85. 被引量：1

商业经济

2012年第2期

浏览历史

内容加载中请稍等...

基于偏最小二乘法的Logistic模型在文本分类中的应用

参考文献2

相关作者

相关机构

相关主题

浏览历史