期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于Spark Streaming的实时数据采集分析系统设计
被引量:
4
1
作者
党寿江
刘学
+1 位作者
王星凯
刘春梅
《网络新媒体技术》
2017年第5期48-53,共6页
大数据量的实时数据分析系统,需要快速的处理和响应。为了实现实时数据分析,本文设计了基于Spark Streaming的实时数据采集分析系统,并对有状态计算操作的基数计算的精确计算方法和估算方法进行了比较分析。实验表明,基于HyperLogLog++...
大数据量的实时数据分析系统,需要快速的处理和响应。为了实现实时数据分析,本文设计了基于Spark Streaming的实时数据采集分析系统,并对有状态计算操作的基数计算的精确计算方法和估算方法进行了比较分析。实验表明,基于HyperLogLog++的基数估算方法在处理时间和存储占用空间上有明显优势,而计算偏差基本可以忽略不计,更适于大数据的基数估算。
展开更多
关键词
基数计算
实时数据分析
Spark流式处理
不重复计数
HyperLogLog++
下载PDF
职称材料
题名
基于Spark Streaming的实时数据采集分析系统设计
被引量:
4
1
作者
党寿江
刘学
王星凯
刘春梅
机构
中国科学院声学研究所国家网络新媒体工程技术研究中心
中国科学院大学
出处
《网络新媒体技术》
2017年第5期48-53,共6页
基金
中国科学院战略性先导科技专项:新型传播技术研究与系统研制(XDA06040602)
文摘
大数据量的实时数据分析系统,需要快速的处理和响应。为了实现实时数据分析,本文设计了基于Spark Streaming的实时数据采集分析系统,并对有状态计算操作的基数计算的精确计算方法和估算方法进行了比较分析。实验表明,基于HyperLogLog++的基数估算方法在处理时间和存储占用空间上有明显优势,而计算偏差基本可以忽略不计,更适于大数据的基数估算。
关键词
基数计算
实时数据分析
Spark流式处理
不重复计数
HyperLogLog++
Keywords
Cardinality Counting, Real - time Data Analysis, Spark Streaming, Distinct Count,HyperLogLog++
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于Spark Streaming的实时数据采集分析系统设计
党寿江
刘学
王星凯
刘春梅
《网络新媒体技术》
2017
4
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部