-
题名基于随机平衡采样的不确定大数据流在线分类算法
- 1
-
-
作者
杨知玲
-
机构
华南农业大学珠江学院信息工程学院
-
出处
《现代电子技术》
2023年第19期125-128,共4页
-
基金
北方国际大学联盟第六期教育教学研究课题:课堂教学过程性评价优化与可视化平台设计(20210608004)
2021年度校级教学质量工程及教育教学改革建设项目:面向工程实践和创新能力培养的案例教学模式改革与实践——以《多媒体技术》课程为例(华农珠江教务〔2021〕100号)
+1 种基金
2022年度广东省教育科学规划课题(高等教育专项):大数据支持下的民办高校学生终身学习能力评价与培养策略研究——以广州市从化区民办高校为例(2022GXJK404)
2022年度广东省本科高校教学质量与教学改革工程建设项目:大数据驱动的课堂教学过程性评价改革探索与实践研究(粤教高函[2023]4号)。
-
文摘
不确定大数据流具有动态性和不平衡性特点,导致分类结果不精准,为此提出基于随机平衡采样的不确定大数据流在线分类算法。根据Spark框架大数据筛选结构,过滤筛选不确定大数据,释放不满足条件的大数据。应用Hoeffding算法计算实际值与观测值之差,判断差值与属性差值之间的关系,确定最佳分类属性。随机设定最小类别与最大类别数目,对非平衡样本抽样,避免因样本规模过大而造成的样本损失。建立在线分类器,逐级筛选不确定大数据。通过计算不确定信息增益,获取归类最大可能性类别,实现大数据流的在线分类。由实验结果可知,该算法对数据集W1、W2、W3分类的准确率最低值分别达到90%、94%、83%,具有精准分类效果。
-
关键词
随机平衡采样
不确定
大数据流
在线分类
属性差值
最佳分类属性
-
Keywords
random balanced sampling
uncertainty
big data flow
online classification
attribute difference
best classification attribute
-
分类号
TN911.1-34
[电子电信—通信与信息系统]
TP393
[自动化与计算机技术—计算机应用技术]
-