-
题名MSOLA:基于多维分层采样的大数据在线聚集技术
被引量:5
- 1
-
-
作者
史英杰
杜方
尤亚东
-
机构
北京服装学院信息工程学院
宁夏大学信息工程学院
-
出处
《计算机应用研究》
CSCD
北大核心
2018年第2期375-380,共6页
-
基金
国家自然科学基金资助项目(61502279
61363018)
+1 种基金
山东省自然科学基金资助项目(ZR2015FM013)
北京市教委科技计划项目(KM201710012008)
-
文摘
在线聚集通过统计计算估计查询结果,能够在查询完成前给用户反馈,在大数据分析领域具有重要意义。现有研究工作采用统一随机采样策略,当查询出现小分组或低选择率时,导致估计结果不准确及收敛速度缓慢。针对这一问题,提出了结合负载特征和数据分布进行多维分层采样的有偏采样策略,并结合大数据处理平台Storm设计了结果估计和置信区间计算方法。实验证明所提出的方案有效提高了在线聚集估计结果的准确度,并且具有良好的扩展性。
-
关键词
在线聚集
大数据
多维分层采样
负载分析
-
Keywords
online aggregation(OLA)
big data
multi-dimension stratified sampling
workload analysis
-
分类号
TP392
[自动化与计算机技术—计算机应用技术]
-
-
题名基于多维分层采样的时间维度型大数据流整合系统设计
被引量:3
- 2
-
-
作者
李双琴
谢锐
曹文琛
邹妍
刘凤屿
-
机构
中国石油大学
中国石油天然气股份有限公司西南管道分公司技术中心
北京睿至大数据有限公司
-
出处
《现代电子技术》
北大核心
2020年第5期133-136,140,共5页
-
文摘
现有大数据流整合系统采用统一随机采样策略,当整合环境存在干扰时会出现严重的数据丢失现象,为解决上述问题,引入多维分层采样策略,分别从硬件和软件两个方面实现对时间维度型大数据流整合系统的优化设计。在硬件方面主要改装微处理器、存储器以及数据分类器等元件,提高硬件系统的运行稳定性。在此基础上,搭建多时间维度数据分层模型,并通过大数据流业务系统数据实现数据探查,并以多维分层的聚类算法为底层逻辑,检测数据质量。最终将质量检测合格的数据流整合在一起,从而实现系统的数据流整合功能。通过系统测试得出如下结论:在复杂环境下,基于多维分层采样的时间维度型大数据流整合系统的丢失数据量为1.25 MB,与传统整合系统相比减少了15 MB。
-
关键词
数据流整合
多维分层采样
数据采集
数据质量检测
模型搭建
系统设计
-
Keywords
data flow integration
multi-dimensional hierarchical sampling
data acquisition
data quality detection
modeling
system design
-
分类号
TN02-34
[电子电信—物理电子学]
-