期刊文献+

大数据随机样本划分模型及相关分析计算技术 被引量:16

Random Sample Partition Data Model and Related Technologies for Big Data Analysis
下载PDF
导出
摘要 设计了一种新的适用于大数据的管理和分析模型大数据随机样本划分(Random samplepartition,RSP)模型,它是将大数据文件表达成一系列RSP数据块文件的集合,分布存储在集群节点上。RSP的生成操作使每个RSP数据块的分布与大数据的分布保持统计意义上的一致,因此,每个RSP数据块是大数据的一个随机样本数据,可以用来估计大数据的统计特征,或建立大数据的分类和回归模型。基于RSP模型,大数据的分析任务可以通过对RSP数据块的分析来完成,不需要对整个大数据进行计算,极大地减少了计算量,降低了对计算资源的要求,提高了集群系统的计算能力和扩展能力。本文首先给出RSP模型的定义、理论基础和生成方法;然后介绍基于RSP数据块的渐近式集成学习Alpha计算框架;之后讨论基于RSP模型和Alpha框架的大数据分析相关计算技术,包括:数据探索与清洗、概率密度函数估计、有监督子空间学习、半监督集成学习、聚类集成和异常点检测;最后讨论RSP模型在分而治之大数据分析和抽样方法上的创新,以及RSP模型和Alpha计算框架实现大规模数据分析的优势。 Random sample partition(RSP)data model distributedly represents a big data set as a set of RSP data blocks stored on a computing cluster.The RSP data model guarantees that the probability distribution of each data block is statistically consistent to the probability distribution of whole big data set.Thus,each RSP data block is a random sample of big data set and can be used to estimate the statistical properties of big data set or establish the classification and regression models.Based on the RSP data model,the big data analysis can be conducted by analyzing RSP data blocks rather than the whole big data set.This significantly reduces the computational complexity and improves the computing performance of cluster system on big data analysis.In this paper,we firstly present the definition,basic theory and generation method of RSP.Second,we introduce an asymptotic ensemble learning framework called Alpha framework used for big data analysis.Third,we discuss the main big data analysis methods based on the RSP data model and Alpha framework,including data exploration&cleaning,probability density function estimation,supervised subspace learning,semi-supervised ensemble learning,clustering ensemble and outlier detection.Finally,we discuss the innovations and advantages of the RSP data model and Alpha framework in big data analysis by using the divide-and-conquer strategy on random samples.
作者 黄哲学 何玉林 魏丞昊 张晓亮 Huang Zhexue;He Yulin;Wei Chenghao;Zhang Xiaoliang(Big Data Institute,College of Computer Science & Software Engineering,Shenzhen University,Shenzhen,518060,China;National Engineering Laboratory for Big Data System Computing Technology,Shenzhen,518060,China)
出处 《数据采集与处理》 CSCD 北大核心 2019年第3期373-385,共13页 Journal of Data Acquisition and Processing
基金 国家重点研发计划(2017YFC0822604-2)资助项目 中国博士后科学基金(2016T90799)资助项目 深圳大学2018年度新引进教师科研启动基金(2018060)资助项目 广东省普通高校国家级重大培育基金(2014GKXM054)资助项目
关键词 大数据 随机样本划分 渐近式集成学习 人工智能 big data random sample partition asymptotic ensemble learning artificial intelligence
  • 相关文献

参考文献8

二级参考文献59

  • 1唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量:95
  • 2阳琳贇,王文渊.聚类融合方法综述[J].计算机应用研究,2005,22(12):8-10. 被引量:28
  • 3邓超,郭茂祖.基于自适应数据剪辑策略的Tri-training算法[J].计算机学报,2007,30(8):1213-1226. 被引量:15
  • 4罗会兰,孔繁胜,李一啸.聚类集成中的差异性度量研究[J].计算机学报,2007,30(8):1315-1324. 被引量:36
  • 5Judd D,Mckinley P,Jain A K.Large-scale parallel data clustering[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(8):871-876.
  • 6Bhatia S K,Deogun J S.Conceptual clustering information retrieval[J].IEEE Transactions on Systems,Man,and Cyberne-tics,1998,28(3):427-436.
  • 7Frigui H,Krishnapuram R.A robust competitiveclustering algorithm with applications in computer vision[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1999,21(5):450-465.
  • 8Jain A K,Murty M N,Flynn P J.Data clustering:A review[J].ACM Computing Surveys,1999,31(3):264 -323.
  • 9Wang Xi,Yang Chunyu,Zhou Jie.Clustering aggregation by probability accumulation[J].Pattern Recognition,2009,42(5):668-675.
  • 10Fraley C,Raftery A E.How many clusters?Which clustering method?Answers via model based cluster analysis[J].The Computer Journal,1998,41(8):578-588.

共引文献171

同被引文献159

引证文献16

二级引证文献15

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部