期刊文献+

训练集容量对决策树分类错误率的影响研究 被引量:6

Proportion of Train-Set's Influence on Error-Rate of Decision Tree
下载PDF
导出
摘要 数据挖掘算法必须在实际数据集上进行验证,而数据集容量是有限的,训练集比例过低会导致训练不足,训练集比例过高会导致算法评价过于乐观。针对训练集容量对评价效果的影响问题,对25个UCI数据集的不同比例训练集运用决策树算法C4.5,得出不同训练集容量对决策树分类错误率的影响关系。实验结果表明,训练集比例至少为50%时才能使分类错误率达到相对平稳。 Algorithm in Data Mining must be validated upon real dataset,but the amount of sample in any dataset is limited.Excessively low proportion of train-set will cause inadequate training,and excessively high proportion of train-set will cause optimistic evaluation.For proportion of train-set's influence on evaluation,C4.5 is used upon different proportion of train-sets from 25 UCI dataset,Proportion of Train-Set's Influence on Error-Rate of Decision Tree describing is found.Results show that proportion of train-set needs to be at least 50% for a comparatively stable error-rate.
出处 《计算机工程与应用》 CSCD 北大核心 2005年第10期159-161,共3页 Computer Engineering and Applications
基金 国家自然科学基金项目(编号:60375005)
关键词 可能近似正确模型PAC 训练集 错误率 probably approximately correct,PAC,Train-Set,Error-Rate
  • 相关文献

参考文献3

  • 1MitchellTM著 曾华军 张银奎译.机器学习[M].北京:机械工业出版社,2003..
  • 2University of California.Irvine repository of machine learning database [Internet].Available from: <ftp://ics.uci.edu/pub/machine-learningdatabases> (Accessed 2003-07-12).
  • 3Quinlan,J R C4.5 Program[Intemet].Available from:<http://www.cse.unsw.edu.au/~quinlan/c4.5r8.tar.gz> ( Accessed 2003-07-12).

共引文献45

同被引文献75

引证文献6

二级引证文献38

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部