-
题名基于机器学习的数据库小数据集并行集成方法
被引量:7
- 1
-
-
作者
王俊
程显生
王寿东
-
机构
内蒙古农业大学计算机技术与信息管理系
内蒙古农业大学食品工程技术系
-
出处
《科学技术与工程》
北大核心
2019年第16期239-244,共6页
-
文摘
为了解决传统方法不能按照训练样本量设计最优网络模型,集成效率低的弊端,通过机器学习方法研究数据库小数据集并行集成方法。机器学习选用朴素贝叶斯算法,依据条件独立性假设,通过计算目标先验概率,采用贝叶斯定理求出其后验概率,对后验概率进行比较,完成决策分类,对基分类器进行训练,把不同朴素贝叶斯基分类器当成集成分类器,在原始数据库上对基分类器进行训练,依据分类结果对数据库中小数据集样本分布进行调整,将其当成新数据集对基分类器进行训练,按照基分类器的表现,通过加权将其组合在一起,产生强分类器,实现对数据库小数据集的集成处理。通过MapReduce并行处理完成并行数据集成,输出并行集成结果。通过仿真实验与实例分析验证所提方法的有效性,结果表明:所提方法在训练样本规模相同的情况下有最高的分类精度和最小的波动,在不同集成规模下的分类精度一直最高,波动最小;所提方法可达到数据的最优集成,数据失效比降低,合成比提高。可见所提方法集成精度高,计算稳定性强,集成效果好,效率优。
-
关键词
机器学习
数据库
小数据集
并行集成
-
Keywords
machine learning
database
small data set
parallel integration
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于知识获取的网络增量数据自动分片仿真
- 2
-
-
作者
程显生
王俊
王寿东
-
机构
内蒙古农业大学计算机技术与信息管理系
内蒙古农业大学食品工程技术系
-
出处
《计算机仿真》
北大核心
2020年第5期322-325,424,共5页
-
文摘
在大数据时代中,网络增量数据自动分片是统计理论与数据库结合的产物,针对当前方法网络增量数据自动分片准确率和效率低的问题,提出基于知识获取的网络增量数据自动分片方法。为了完成对网络增量数据自动分片,需要先对数据做降维处理,利用数据样本中心计算数据样本点类内的平均距离,得到数据样本点重构误差的重构系数,利用该系数完成对网络增量数据的降维处理。在此基础上,分析数据观察变量和潜在变量的概率分布情况,并计算其后验概率,网络是根据数据节点之间的边所组成的,可以通过数据节点间的边数等条件衡量数据分片参数的估计量,利用参数的估计量来描述网络增量数据自动分片的过程,得到邻节点数据分片在传播中的分量加权乘积,并对其迭代计算,最终实现了网络增量数据的自动分片。实验结果表明,提出方法在对网络增量数据自动分片时,具有较高的准确率,并且数据自动分片耗时短,效率高,均验证了提出方法的有效性。
-
关键词
知识获取
网络增量
数据
自动分片
-
Keywords
Knowledge acquisition
Network increment
Data
Automatic sharding
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-