摘要
当前,我们所处的时代是数据爆炸式增长的时代,来自于社会生产、工程、医疗、商业及科学研究领域的数据每天都在增长。这些数据类型多样、数据量巨大、价值密度低、增长速度快,只有对这些数据进行合理的组织和分析才能发掘其背后的应用价值[1]。数据挖掘的诞生就是为了对海量数据进行分析、分类并提取有价值的信息,为研究者做出进一步预测和判断提供数据基础[2]。分类是数据挖掘中一个重要的研究领域,其研究内容是在一群已经知道类别标号的样本中,训练一种分类器,让其能够对某种未知的样本进行分类。分类算法的分类过程就是建立一种分类模型来描述预定的数据集或概念集,通过分析由属性描述的数据库元组来构造模型。分类的目的就是使用分类器对新的数据集进行划分,其主要涉及分类规则的准确性、过拟合、矛盾划分的取舍等。解决分类问题的方法很多,单一的分类方法主要包括:决策树、贝叶斯、神经网络、K近邻、支持向量机和基于关联规则的分类等,另外还有用于组合单一分类方法的集成学习算法,如Bagging和Boosting等。
出处
《中国教育网络》
2022年第7期43-45,共3页
China Education Network
基金
青海师范大学中青年科研基金(127040227)。