摘要
鉴于文本分类具有高维性和高相关性的特点,已有文本分类研究采用能够有效降维和消除共线性的主成分Logistic模型。然而,这种模型定式在提取主成分时没有考虑解释变量与被解释变量之间的相关性,可能导致与文本分类关系密切的解释变量信息的丢失,从而削弱模型的分类能力。考虑到这一缺陷,在分析中引入偏最小二乘方法,并对20newsgroups语料库进行分类,结果显示,在高维分类时,其分类性能相对于主成分Logistic模型具有明显优势,表明这种方法用于文本分类的有效性。
出处
《商业经济》
2012年第2期30-32,共3页
Business & Economy