大数据随机样本划分模型及相关分析计算技术被引量：16

Random Sample Partition Data Model and Related Technologies for Big Data Analysis

下载PDF

导出

摘要设计了一种新的适用于大数据的管理和分析模型大数据随机样本划分(Random samplepartition,RSP)模型,它是将大数据文件表达成一系列RSP数据块文件的集合,分布存储在集群节点上。RSP的生成操作使每个RSP数据块的分布与大数据的分布保持统计意义上的一致,因此,每个RSP数据块是大数据的一个随机样本数据,可以用来估计大数据的统计特征,或建立大数据的分类和回归模型。基于RSP模型,大数据的分析任务可以通过对RSP数据块的分析来完成,不需要对整个大数据进行计算,极大地减少了计算量,降低了对计算资源的要求,提高了集群系统的计算能力和扩展能力。本文首先给出RSP模型的定义、理论基础和生成方法;然后介绍基于RSP数据块的渐近式集成学习Alpha计算框架;之后讨论基于RSP模型和Alpha框架的大数据分析相关计算技术,包括:数据探索与清洗、概率密度函数估计、有监督子空间学习、半监督集成学习、聚类集成和异常点检测;最后讨论RSP模型在分而治之大数据分析和抽样方法上的创新,以及RSP模型和Alpha计算框架实现大规模数据分析的优势。 Random sample partition(RSP)data model distributedly represents a big data set as a set of RSP data blocks stored on a computing cluster.The RSP data model guarantees that the probability distribution of each data block is statistically consistent to the probability distribution of whole big data set.Thus,each RSP data block is a random sample of big data set and can be used to estimate the statistical properties of big data set or establish the classification and regression models.Based on the RSP data model,the big data analysis can be conducted by analyzing RSP data blocks rather than the whole big data set.This significantly reduces the computational complexity and improves the computing performance of cluster system on big data analysis.In this paper,we firstly present the definition,basic theory and generation method of RSP.Second,we introduce an asymptotic ensemble learning framework called Alpha framework used for big data analysis.Third,we discuss the main big data analysis methods based on the RSP data model and Alpha framework,including data exploration&cleaning,probability density function estimation,supervised subspace learning,semi-supervised ensemble learning,clustering ensemble and outlier detection.Finally,we discuss the innovations and advantages of the RSP data model and Alpha framework in big data analysis by using the divide-and-conquer strategy on random samples.

作者黄哲学何玉林魏丞昊张晓亮 Huang Zhexue;He Yulin;Wei Chenghao;Zhang Xiaoliang(Big Data Institute,College of Computer Science & Software Engineering,Shenzhen University,Shenzhen,518060,China;National Engineering Laboratory for Big Data System Computing Technology,Shenzhen,518060,China)

机构地区深圳大学计算机与软件学院大数据技术与应用研究所深圳大学大数据系统计算技术国家工程实验室

出处《数据采集与处理》 CSCD 北大核心 2019年第3期373-385,共13页 Journal of Data Acquisition and Processing

基金国家重点研发计划(2017YFC0822604-2)资助项目中国博士后科学基金(2016T90799)资助项目深圳大学2018年度新引进教师科研启动基金(2018060)资助项目广东省普通高校国家级重大培育基金(2014GKXM054)资助项目

关键词大数据随机样本划分渐近式集成学习人工智能 big data random sample partition asymptotic ensemble learning artificial intelligence

分类号 TN911.73 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献8

1陈国良.大数据聚类专题序言[J].深圳大学学报（理工版）,2019,36(1):1-3. 被引量：3
2王晨曦,吕方,崔慧敏,曹婷,John Zigman,庄良吉,冯晓兵.面向大数据处理的基于Spark的异质内存编程框架[J].计算机研究与发展,2018,55(2):246-264. 被引量：9
3宋泊东,张立臣,江其洲.基于Spark的分布式大数据分析算法研究[J].计算机应用与软件,2019,36(1):39-44. 被引量：20
4吴信东,嵇圣硙.MapReduce与Spark用于大数据分析之比较[J].软件学报,2018,29(6):1770-1791. 被引量：77
5魏丞昊,黄哲学,何玉林.基于统计感知的大数据系统计算框架[J].深圳大学学报（理工版）,2018,35(5):441-443. 被引量：5
6蔡毅,朱秀芳,孙章丽,陈阿娇.半监督集成学习综述[J].计算机科学,2017,44(S1):7-13. 被引量：33
7杨草原,刘大有,杨博,池淑珍,金弟.聚类集成方法研究[J].计算机科学,2011,38(2):166-170. 被引量：15
8曹科研,栾方军,孙焕良,丁国辉.不确定数据基于密度的局部异常点检测[J].计算机学报,2017,40(10):2231-2244. 被引量：23

二级参考文献59

1唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量：95
2阳琳贇,王文渊.聚类融合方法综述[J].计算机应用研究,2005,22(12):8-10. 被引量：28
3邓超,郭茂祖.基于自适应数据剪辑策略的Tri-training算法[J].计算机学报,2007,30(8):1213-1226. 被引量：15
4罗会兰,孔繁胜,李一啸.聚类集成中的差异性度量研究[J].计算机学报,2007,30(8):1315-1324. 被引量：36
5Judd D,Mckinley P,Jain A K.Large-scale parallel data clustering[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(8):871-876.
6Bhatia S K,Deogun J S.Conceptual clustering information retrieval[J].IEEE Transactions on Systems,Man,and Cyberne-tics,1998,28(3):427-436.
7Frigui H,Krishnapuram R.A robust competitiveclustering algorithm with applications in computer vision[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1999,21(5):450-465.
8Jain A K,Murty M N,Flynn P J.Data clustering:A review[J].ACM Computing Surveys,1999,31(3):264 -323.
9Wang Xi,Yang Chunyu,Zhou Jie.Clustering aggregation by probability accumulation[J].Pattern Recognition,2009,42(5):668-675.
10Fraley C,Raftery A E.How many clusters?Which clustering method?Answers via model based cluster analysis[J].The Computer Journal,1998,41(8):578-588.

共引文献171

1周晓,马圣杰.基于集成学习的转子部件脱落故障诊断方法[J].数字制造科学,2022(1):16-22.
2王瑞玺,尚东方,鲍可馨.基于大数据的海港船舶疫情风险防控平台设计与实现[J].中国水运（下半月）,2022,22(8):42-44. 被引量：1
3孙如飞,张焱,陈瑞祥,孙飞飞,陈龙赞.流处理技术在水利物联网领域的应用[J].人民黄河,2021,43(S02):264-267. 被引量：1
4危前进,魏继鹏,古天龙,常亮,文益民.粗糙集多目标并行属性约简算法[J].软件学报,2022,33(7):2599-2617. 被引量：2
5徐霞军,秦绪涛,杨强,朱云飞.大数据技术在核电设备缺陷分析中的初步应用[J].核动力工程,2020,41(S01):68-72. 被引量：6
6白琳.基于免疫优势克隆网络聚类的入侵检测[J].计算机科学,2012,39(7):82-86. 被引量：3
7冀素琴,石洪波.基于MapReduce的K-means聚类集成[J].计算机工程,2013,39(9):84-87. 被引量：8
8SU Bao-ping,ZHANG Meng-jie.A Clustering Ensemble approach based on the similar ities in 2- mode social networ ks[J].科技视界,2014(6):185-187.
9吴德胜,管媛辉.移动互联网异常入侵行为下攻击意图预测仿真[J].计算机仿真,2018,35(12):241-244. 被引量：1
10游丽平,陈德旺,陈文,刘林.聚类集成技术在地铁站点类型研究中的应用[J].小型微型计算机系统,2019,40(1):236-240. 被引量：5

同被引文献159

1李兵,韩睿,何怡刚,张晓艺,侯金波.改进随机森林算法在电机轴承故障诊断中的应用[J].中国电机工程学报,2020,40(4):1310-1319. 被引量：78
2刘宝慧.我国国民经济统计工作中的实例与核算数据分析研究——评《国民经济统计学》[J].云南财经大学学报,2020(4):2-2. 被引量：2
3张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：20
4冀振燕,宋晓军,皮怀雨,杨春.基于深度学习的融合多源异构数据的推荐模型[J].北京邮电大学学报,2019,42(6):35-42. 被引量：12
5Mohammad Sultan Mahmud,Joshua Zhexue Huang,Salman Salloum,Tamer Z.Emara,Kuanishbay Sadatdiynov.A Survey of Data Partitioning and Sampling Methods to Support Big Data Analysis[J].Big Data Mining and Analytics,2020,3(2):85-101. 被引量：17
6王广斌,刘义伦,金晓宏,阳小燕,何玉辉.基于时间序列分析的风机运行状态监测与预报及故障诊断[J].机械,2005,32(1):21-23. 被引量：5
7杨智明,乔立岩,彭喜元.基于改进SMOTE的不平衡数据挖掘方法研究[J].电子学报,2007,35(B12):22-26. 被引量：31
8曾志强,吴群,廖备水,高济.一种基于核SMOTE的非平衡数据集分类方法[J].电子学报,2009,37(11):2489-2495. 被引量：49
9栾亚建,黄翀民,龚高晟,赵铁柱.Hadoop平台的性能优化研究[J].计算机工程,2010,36(14):262-263. 被引量：51
10夏宁霞,苏一丹,覃希.一种高效的K-medoids聚类算法[J].计算机应用研究,2010,27(12):4517-4519. 被引量：47

引证文献16

1何玉林,金一,戴德鑫,黄柏皓,黄家杰.混合属性数据集分布一致性度量的新方法[J].深圳大学学报（理工版）,2021,38(2):170-179. 被引量：2
2王钰,刘磊.基于特征扩展的网构软件测试数据分类模型构建[J].电子设计工程,2021,29(8):29-32. 被引量：1
3程大勇.基于优化深度置信网络的多源异构数据清洗算法研究[J].重庆科技学院学报（自然科学版）,2021,23(6):59-63. 被引量：2
4陈明,刘睿,李乐,李锐锋,曾琴,李玉婷.利用大数据技术提升电力客户档案资源管理和服务能力[J].电力大数据,2022,25(2):9-18. 被引量：3
5吴永影,黄思源.基于大数据分析下存在可变对价的收入核算新模型构建[J].吉林工程技术师范学院学报,2022,38(7):94-98. 被引量：1
6于万国,袁镇濠,陈佳琪,何玉林.分布式子空间局部链接随机向量函数链接网络[J].深圳大学学报（理工版）,2022,39(6):675-683.
7孟小燕,赵希武.基于蚁群算法的计算引擎均衡部署数学建模[J].计算机仿真,2022,39(11):472-476.
8吕波.基于增量学习算法的RBF大数据处理技术[J].信息技术,2023,47(3):45-50.
9余嘉茵,何玉林,崔来中,黄哲学.针对大规模数据的分布一致缺失值插补算法[J].清华大学学报（自然科学版）,2023,63(5):740-753. 被引量：3
10李红,邱凯.基于MapReduce物联网大数据处理框架设计[J].信息技术,2023,47(7):173-178.

二级引证文献15

1李彩萍,姜文平.一种内存库与物理库用户资料一致性稽核方法[J].电子制作,2021,29(6):62-64.
2杨玉环,圣文顺,刘进芬.基于在线流量的自动回归测试平台[J].电子设计工程,2022,30(14):128-132. 被引量：1
3郑志良.农业机械大数据清洗算法研究[J].河北农机,2022(19):64-66.
4姜宇琦.基于三维GIS技术的电网可视化展示研究[J].电力大数据,2023,26(1):44-50.
5崔素芳,张保祥,荣燕妮,姜欣,王振,刘振,付军.基于云模型的山东省干旱时空分布特征[J].南水北调与水利科技（中英文）,2023,21(4):679-688. 被引量：2
6张磊,曹彩平,宋涛,杜俊杰.基于改进深度置信网络的智能油田数据快速清洗研究[J].互联网周刊,2023(23):39-41.
7胡心宇,杨强.核电企业传统载体档案数字化与库房智能化转型实践研究[J].电力大数据,2023,26(10):85-92. 被引量：3
8徐建军.报业单位收入核算的改进建议——以N报业集团为例[J].齐鲁珠坛,2023(5):20-22.
9张燕.多模态异构大数据混合属性特征匹配筛选算法[J].现代电子技术,2024,47(3):119-122.
10徐宽广,徐国政,毕鹏飞,刘恒文.南钢宽厚板厂设备振动监测系统研究与应用[J].冶金与材料,2023,43(12):190-192.

1林超群.多维贫困视角下中国居民致贫因子研究——基于CGSS2015全国、城乡、区域微观数据的实证分析[J].农业部管理干部学院学报,2018(4):65-71.
2贾丽,杜浩,赵一鸣,梁孝彬,吴思.基于Hadoop分布式架构的数据挖掘与服务系统设计[J].数字技术与应用,2019,37(2):176-178. 被引量：2
3何云,高会,谢丹.机构投资者持股、内部控制与审计质量[J].中国审计评论,2016(1):31-40. 被引量：2
4田少娟.基于集成支持向量机的高维过程监控[J].甘肃科学学报,2019,31(3):147-152.
5王莹,王月.两岸新闻媒体交流制度的变迁[J].新闻界,2019(3):20-27.
6刘丹,马同伟.结合语义信息的行人检测方法[J].电子测量与仪器学报,2019,31(1):54-60. 被引量：14
7戴楠,严悍,卓勤政,马玲玲.基于网格山脊点的异常点检测[J].计算机与数字工程,2019,47(5):1175-1178.
8贾玲,吴建华,陆江.大数据视野下档案业务流程再造方法研究[J].档案学研究,2018,0(6):90-94. 被引量：17
9高云飞,付霖宇,瞿军,王菊香,邢志娜,翁新华.基于相似性度量的改进KS算法对近红外光谱分析模型的影响研究[J].电光与控制,2019,26(6):18-21. 被引量：6
10卢欣,李旸,王素格.融合语言特征的卷积神经网络的反讽识别方法[J].中文信息学报,2019,33(5):31-38. 被引量：11

数据采集与处理

2019年第3期

浏览历史

内容加载中请稍等...

大数据随机样本划分模型及相关分析计算技术被引量：16

参考文献8

二级参考文献59

共引文献171

同被引文献159

引证文献16

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

大数据随机样本划分模型及相关分析计算技术 被引量：16

参考文献8

二级参考文献59

共引文献171

同被引文献159

引证文献16

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

大数据随机样本划分模型及相关分析计算技术被引量：16