期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
MSOLA:基于多维分层采样的大数据在线聚集技术 被引量:5
1
作者 史英杰 杜方 尤亚东 《计算机应用研究》 CSCD 北大核心 2018年第2期375-380,共6页
在线聚集通过统计计算估计查询结果,能够在查询完成前给用户反馈,在大数据分析领域具有重要意义。现有研究工作采用统一随机采样策略,当查询出现小分组或低选择率时,导致估计结果不准确及收敛速度缓慢。针对这一问题,提出了结合负载特... 在线聚集通过统计计算估计查询结果,能够在查询完成前给用户反馈,在大数据分析领域具有重要意义。现有研究工作采用统一随机采样策略,当查询出现小分组或低选择率时,导致估计结果不准确及收敛速度缓慢。针对这一问题,提出了结合负载特征和数据分布进行多维分层采样的有偏采样策略,并结合大数据处理平台Storm设计了结果估计和置信区间计算方法。实验证明所提出的方案有效提高了在线聚集估计结果的准确度,并且具有良好的扩展性。 展开更多
关键词 在线聚集 大数据 多维分层采样 负载分析
下载PDF
基于多维分层采样的时间维度型大数据流整合系统设计 被引量:3
2
作者 李双琴 谢锐 +2 位作者 曹文琛 邹妍 刘凤屿 《现代电子技术》 北大核心 2020年第5期133-136,140,共5页
现有大数据流整合系统采用统一随机采样策略,当整合环境存在干扰时会出现严重的数据丢失现象,为解决上述问题,引入多维分层采样策略,分别从硬件和软件两个方面实现对时间维度型大数据流整合系统的优化设计。在硬件方面主要改装微处理器... 现有大数据流整合系统采用统一随机采样策略,当整合环境存在干扰时会出现严重的数据丢失现象,为解决上述问题,引入多维分层采样策略,分别从硬件和软件两个方面实现对时间维度型大数据流整合系统的优化设计。在硬件方面主要改装微处理器、存储器以及数据分类器等元件,提高硬件系统的运行稳定性。在此基础上,搭建多时间维度数据分层模型,并通过大数据流业务系统数据实现数据探查,并以多维分层的聚类算法为底层逻辑,检测数据质量。最终将质量检测合格的数据流整合在一起,从而实现系统的数据流整合功能。通过系统测试得出如下结论:在复杂环境下,基于多维分层采样的时间维度型大数据流整合系统的丢失数据量为1.25 MB,与传统整合系统相比减少了15 MB。 展开更多
关键词 数据流整合 多维分层采样 数据采集 数据质量检测 模型搭建 系统设计
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部