-
题名基于多维分层采样的时间维度型大数据流整合系统设计
被引量:3
- 1
-
-
作者
李双琴
谢锐
曹文琛
邹妍
刘凤屿
-
机构
中国石油大学
中国石油天然气股份有限公司西南管道分公司技术中心
北京睿至大数据有限公司
-
出处
《现代电子技术》
北大核心
2020年第5期133-136,140,共5页
-
文摘
现有大数据流整合系统采用统一随机采样策略,当整合环境存在干扰时会出现严重的数据丢失现象,为解决上述问题,引入多维分层采样策略,分别从硬件和软件两个方面实现对时间维度型大数据流整合系统的优化设计。在硬件方面主要改装微处理器、存储器以及数据分类器等元件,提高硬件系统的运行稳定性。在此基础上,搭建多时间维度数据分层模型,并通过大数据流业务系统数据实现数据探查,并以多维分层的聚类算法为底层逻辑,检测数据质量。最终将质量检测合格的数据流整合在一起,从而实现系统的数据流整合功能。通过系统测试得出如下结论:在复杂环境下,基于多维分层采样的时间维度型大数据流整合系统的丢失数据量为1.25 MB,与传统整合系统相比减少了15 MB。
-
关键词
数据流整合
多维分层采样
数据采集
数据质量检测
模型搭建
系统设计
-
Keywords
data flow integration
multi-dimensional hierarchical sampling
data acquisition
data quality detection
modeling
system design
-
分类号
TN02-34
[电子电信—物理电子学]
-