期刊文献+

改进随机森林算法在Spark+Kudu平台的并行化运用 被引量:1

下载PDF
导出
摘要 多种因素可能对学生成绩造成影响,利用数据挖掘工具对学生的学习课程成绩进行预测分析,进而利用预测分析结果及时指正学生出现的不良学习行为,同时检查老师的教学效果。首先将改进随机森林算法在大数据平台上进行并行化改进后进行实践。然后通过将提出的改进随机森林算法进行并行化,将其运用到Spark+Kudu大数据平台上进行仿真实验。最后算法并行化主要根据随机森林算法中的决策树划分策略以及模拟退火算法构建多种群策略来进行。实验结果证明并行化策略能够有效提升数据集的分类效率,大幅度缩短算法执行时间。
作者 庄巧蕙 ZHUANG Qiaohui
机构地区 闽南理工学院
出处 《信息技术与信息化》 2024年第2期67-70,共4页 Information Technology and Informatization
  • 相关文献

参考文献6

二级参考文献28

  • 1樊建聪,张问银,梁永全.基于贝叶斯方法的决策树分类算法[J].计算机应用,2005,25(12):2882-2884. 被引量:20
  • 2Han J, Kambr M. Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers, 2001:279-333
  • 3Ruggieri S. Efficient C4.5. IEEE Transactions on Knowledge and Data Engineering, 2002, 14(2):438-444
  • 4Breiman L, Friedman JH, Olshen RA, et al. Classification and Regression Trees. Chapman & Hall(Wadsworth, Inc.): New York, 1984
  • 5Mehta M, Agrawal R, Rissancn J. SLIQ: A Fast Scalable Classifier for Data Mining. Research Report, IBM Almaden Research Center, San Jose, California, 1995
  • 6Shafer J, Agrawal R, Mehta M. SPRINT: A Scalable Parallel Classifier for Data Mining. Research Report, IBM Almaden Research Center,San Jose, California, 1996
  • 7Rastogi R, Shim K. PUBLIC: A Decision Tree Classifier that Integrates Building and Pruning. Technical Report, Bell Laboratories, Murray Hill, 1998
  • 8HanJiawei MichelineKambe.数据挖掘概念与技术[M].北京:机械工业出版社,2001..
  • 9Mehta M, Agrawal R, Rissanen J. SLIQ: A Fast Scalable Classifier for Data Mining[A]. Lecture Notes in Computer Sci. Proc. of the 5th Int.Conf. on Extending Database Tech. [C], 1996:18-33
  • 10Shafer J C, Agrawal R, Mehta M. SPRINT: A Scalable Parallel Classifier for Data Mining[A]. Mumbai(Bombay), India: Proc. of the 22nd Int. Conf. on Very Large Databases[C], 1996

共引文献377

同被引文献6

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部