期刊文献+

基于岭回归和支持向量机结合的数据挖掘新方法 被引量:7

New Data Mining Method Based on the Ridge Regression and Support Vector Machine
下载PDF
导出
摘要 支持向量机根据VC维理论和结构风险最小化原则,是一种建立在统计学习理论基础之上具有新颖、功能强大特点的机器学习方法。它具有全局最优、结构简单、推广能力强等优点,近年来越来越引起关注。但支持向量机是一种小样本机器学习方法,自身的复杂性和多重共线性成为其处理大规模数据时的“瓶颈”问题。岭回归方法是一种修正的最小二乘估计法,是一种专门用于复共线性数据分析的有偏估计方法,当自变量系统中存在多重相关性时,它可以提供一个比最小二乘法更为稳定的估计。本文将岭回归.支持向量机结合,用于数据挖掘方法之一——文本分类中,实验结果表明:本方法可以提高支持向量机分类的训练速度和分类精度。 Support Vector Machine is a novel and powerful machine learning approach developed in the framework of statistical learning theory, which is based on the VC theory and the Principle of structural risk minimization. SVM has some advantages, such as simple structure and good generalization, which is one implementation in statistical learning theory. It has drawn more and more attention in recent years. However, SVM is a limited sample learning method and its need for complexity of computation and multi-collinearity is the bottle-neck to deal with large-scale data. Ridge regression is a method that the leastsquares estimation of revision. It is a biased estimate method that is specialized for multi-collinearity data analysis. When the independent variable system has the multiple relevance, it can provide more stable estimate than a least-squares method. This paper will combine ridge regression with support vector machine to solut one of the data mining method ——text classification. Experimental results show: the method can improve training speed and classification accuracy of support vector machine classification.
作者 陈莉
出处 《情报学报》 CSSCI 北大核心 2008年第2期229-234,共6页 Journal of the China Society for Scientific and Technical Information
关键词 岭回归 支持向量机 数据挖掘 文本分类 ridge regression, support vector machine, data mining, text classification
  • 相关文献

参考文献15

二级参考文献71

  • 1谢纪刚,裘正定,周铖,王静.分类器集成在财务危机预测中的应用研究[J].复旦学报(自然科学版),2004,43(5):785-788. 被引量:9
  • 2刘闽,林成德.基于支持向量机的商业银行信用风险评估模型[J].厦门大学学报(自然科学版),2005,44(1):29-32. 被引量:26
  • 3瓦普尼克(美)著 张学工译.统计学习理论的本质[M].北京:清华大学出版社,2000..
  • 4DavidHand Heikki Mannila Padhraic Smyth著 张银奎 廖丽 宋俊 .数据挖掘原理[M].机械工业出版社,2003..
  • 5Vapnik V N 张学工 译.统计学习理论的本质[M].北京:清华大学出版社,1999..
  • 6吴立德,大规模中文文本处理,1997年
  • 7黄昌宁,语言信息处理专论,1995年
  • 8Vladimir N Vapnik著 张学工译.统计学习理论的本质[M].北京:清华大学出版社,2000..
  • 9边肇祺 张学工等.模式识别:第2版[M].北京:清华大学出版社,1999.30.136.
  • 10Nell Cristianini,John Shawe-Taylor.支持向量机导论[M].北京:电子工业出版社,2004.82-98.

共引文献327

同被引文献114

引证文献7

二级引证文献42

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部