大数据的分层分类优化识别仿真研究被引量：3

Simulation of Optimum Identification in Hierarchical Classification of Big Data

下载PDF

导出

摘要在对大数据环境下的分层分类挖掘过程中,由于非结构化数据大量涌现,使得数据结构属性不能统一,难以用表结构表示。采用传统方法时,不仅在记录数据数值的还要存储数据的结构,从而增加了数据分类的难度,导致分类精确度低的问题。提出改进叶贝斯理论的大数据环境下的分层分类挖掘方法。上述方法引入叶贝斯理论对数据库的数据进行详细的分析,输入大数据环境下的数据训练样本集,依据大数据训练样本集中每个数据的特征向量组建大数据的分层分类决策模型。在此基础上,利用最大间隔准则将分层分类模型中的每层高维数据投影到低维特征数据分类范围内,利用最小最大概率机对大数据进行分类优化。仿真证明,改进叶贝斯理论的大数据环境下的分层分类挖掘方法精确度高,适用性强。 The paper proposed a hierarchical classification mining method under the big data environment based on improved Bayesian theory. In this method, Bayesian theory was introduced to make detailed analysis of the data in database, and the data training sample set under the big data environment was input. On the basis of the feature vector of each data in big data training sample set, the hierarchical classification decision model of big data was constructed. On this basis, the rule of maximum interval was used to project the high - dimensional data of each layer in the hierarchical classification model to the classification range of low - dimensional characteristic data, and minimum -maximum probability machine was used to make classification optimization of big data. Simulation experiment proves that the hierarchical classification mining method has high precision and strong applicability.

作者张慧萍贺红艳陈小娟

机构地区湖北工业大学工程技术学院

出处《计算机仿真》 CSCD 北大核心 2015年第10期463-466,共4页 Computer Simulation

关键词分类规则数据挖掘贝叶斯理论 Classification rules Data mining Bayesian theory

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献10

1翟小东,贺利乐,张平.混联式混合动力挖掘机多模式分层能量研究[J].建筑机械,2013,33(4):76-80. 被引量：1
2陈海英.证券交易风险分析评估挖掘方法研究与仿真[J].计算机仿真,2013,30(4):217-219. 被引量：2
3李雷孝.气象数据深度挖掘优化方法研究与仿真[J].计算机仿真,2013,30(12):403-406. 被引量：3
4汪丽,张露.基于分布式数据挖掘方法的研究与应用[J].武汉理工大学学报（信息与管理工程版）,2013,35(1):40-43. 被引量：6
5段建勇,窦光辉,张梅,谢宇超.维基百科中查询分类知识挖掘方法研究[J].小型微型计算机系统,2014,35(7):1591-1595. 被引量：1
6王崇科,刘丹.一种蚁群分布进化的高效网络安全防护方法[J].科技通报,2014,30(8):104-106. 被引量：1
7王明星,刘锋.数据挖掘常用分类算法研究[J].电脑知识与技术,2013(12):7667-7669. 被引量：2
8丁佳.基于大数据环境下的网络安全研究[J].网络安全技术与应用,2014(4):116-116. 被引量：30
9郭三强,郭燕锦.大数据环境下的数据安全研究[J].科技广场,2013(2):28-31. 被引量：73
10毛晓燕.大数据环境下图书馆信息服务走向分析[J].图书馆工作与研究,2014(3):72-75. 被引量：57

二级参考文献68

1郭亚周,高德远,高翔.模糊聚类分析在入侵检测系统中的应用研究[J].沈阳理工大学学报,2005,24(4):26-28. 被引量：26
2庄力可,寇忠宝,张长水.网络日志挖掘中基于时间间隔的会话切分[J].清华大学学报（自然科学版）,2005,45(1):115-118. 被引量：24
3谢辉,宋小武,周能辉.轻度混合动力系统控制模式分层决策及能量管理策略的研究[J].内燃机学报,2005,23(2):155-161. 被引量：15
4赵红玲,宋瀚涛,牛振东,刘桂山.Web日志挖掘中数据预处理的研究[J].计算机应用研究,2005,22(6):67-69. 被引量：20
5王庆丰,张彦廷,肖清.混合动力工程机械节能效果评价及液压系统节能的仿真研究[J].机械工程学报,2005,41(12):135-140. 被引量：97
6钱少华,蔡勇,钱雪忠.基于数组的Apriori算法的改进[J].计算机应用与软件,2006,23(2):111-113. 被引量：16
7陶剑文.一种分布式Web日志挖掘系统的设计与实现[J].计算机仿真,2006,23(10):109-112. 被引量：26
8郭超峰,李梅莲.基于ID3算法的决策树研究与应用[J].许昌学院学报,2007,26(2):107-111. 被引量：10
9FU Y J. Distributed data mining: an overview [ R ]. [ S. 1. ] :IEEE TCDP Newsletter, 2001.
10MARIO C,ANTONIO C,ANDREA P,et al. Distributed data mining on grids : services, tools, and applications [ J]. IEEE Transactions on Systems, Man, and Cyber- netics :Part B, Cybernetics, 2004,34(6) :2451 - 2465.