期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向大规模流数据的可扩展分布式实时处理方法
被引量:
2
1
作者
蔡斌雷
郭芹
+1 位作者
朱世伟
任家东
《青岛科技大学学报(自然科学版)》
CAS
2016年第5期584-590,共7页
MapReduce是处理大规模数据集的常用技术,但不能满足大规模数据集中流数据实时计算的要求。对此提出一种面向大规模流数据的可扩展、分布式实时处理方法。该方法在Map阶段,建立基于内存Hash B+树的缓存结构对中间结果处理机制进行优化,...
MapReduce是处理大规模数据集的常用技术,但不能满足大规模数据集中流数据实时计算的要求。对此提出一种面向大规模流数据的可扩展、分布式实时处理方法。该方法在Map阶段,建立基于内存Hash B+树的缓存结构对中间结果处理机制进行优化,以降低对中间结果的频繁读写造成的I/O消耗,同时消除对中间结果的排序,以降低对CPU的消耗;在Reduce阶段,设计基于动态增量Hash技术的快速内存处理方法,并消除对中间结果的多遍扫描合并,对流数据进行增量处理、单遍分析,以提高对流数据的实时分析能力。实验结果表明:上述方法可以对大规模流数据进行实时性处理,并且具有较好的可扩展性。
展开更多
关键词
大数据
分布式计算
流数据处理
MAPREDUCE
下载PDF
职称材料
基于Hadoop MapReduce的分布式数据流聚类算法研究
被引量:
5
2
作者
蔡斌雷
任家东
+1 位作者
朱世伟
郭芹
《信息工程大学学报》
2014年第4期472-478,共7页
随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点。文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC-Stream),利于基于Had...
随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点。文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC-Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析,实时发现数据流中任意形状的簇,定义检测周期和密度阈值函数并及时删除数据流中的噪声点。算法基于网格密度对数据流初始聚类后,随着新数据的到来,使用基于密度阈值函数的噪声点处理策略,周期性检测和删除噪声点,使用基于Hadoop MapReduce框架的并行分析模型周期性地调整已经生成的簇。实验结果表明,PGDC-Stream对大规模数据流的聚类质量、可伸缩性和实时性都好于CluStream。
展开更多
关键词
数据挖掘
聚类
数据流聚类
分布式聚类
下载PDF
职称材料
基于Spark的云数据中心性能异常实时检测方法
3
作者
蔡斌雷
郭芹
《西安职业技术学院学报》
2016年第3期1-5,19,共6页
针对当前云计算环境下数据中心性能异常检测方法的实时性、可扩展性问题,提出一种云数据中心环境下基于Spark的性能异常实时检测方法Spark—ADOPD(Spark-based Anomaly Detection OverPerformance DataInRealtime).方法设计基于Spar...
针对当前云计算环境下数据中心性能异常检测方法的实时性、可扩展性问题,提出一种云数据中心环境下基于Spark的性能异常实时检测方法Spark—ADOPD(Spark-based Anomaly Detection OverPerformance DataInRealtime).方法设计基于Spark的分布式、可扩展流数据聚类算法对采集的云数据中心性能数据进行自动分类,建立性能异常预测模型;定义相似度函数,通过计算持续到达的性能数据与预测模型的相似度,挖掘性能异常行为,以动态调整资源分配.实验结果证明Spark-ADOPD具有较好的实时性和准确性.
展开更多
关键词
异常检测
流数据聚类
SPARK
资源调度
云数据中心
下载PDF
职称材料
基于积分算子技巧的容量相关估计
4
作者
郭芹
蔡斌雷
《山东科学》
CAS
2013年第4期7-10,15,共5页
利用与积分算子特征值下降速率有关的两种容量相关条件,在抽样是同分布且样本是独立选取的情况下,通过积分算子技巧和假设概率随机事件的方法给出了正则化最小二乘回归学习算法的一致性误差界,并将正则化最小二乘回归学习算法的学习速...
利用与积分算子特征值下降速率有关的两种容量相关条件,在抽样是同分布且样本是独立选取的情况下,通过积分算子技巧和假设概率随机事件的方法给出了正则化最小二乘回归学习算法的一致性误差界,并将正则化最小二乘回归学习算法的学习速率提高到了O(m-β(1+2β))。
展开更多
关键词
积分算子
最小二乘回归
误差界
学习速率
下载PDF
职称材料
题名
面向大规模流数据的可扩展分布式实时处理方法
被引量:
2
1
作者
蔡斌雷
郭芹
朱世伟
任家东
机构
山东省科学院情报研究所
济南大学泉城学院
燕山大学信息科学与工程学院
出处
《青岛科技大学学报(自然科学版)》
CAS
2016年第5期584-590,共7页
基金
国家自然科学基金资助项目(61170190)
山东省科技发展计划项目(2014GGX101013
2015GGX101032)
文摘
MapReduce是处理大规模数据集的常用技术,但不能满足大规模数据集中流数据实时计算的要求。对此提出一种面向大规模流数据的可扩展、分布式实时处理方法。该方法在Map阶段,建立基于内存Hash B+树的缓存结构对中间结果处理机制进行优化,以降低对中间结果的频繁读写造成的I/O消耗,同时消除对中间结果的排序,以降低对CPU的消耗;在Reduce阶段,设计基于动态增量Hash技术的快速内存处理方法,并消除对中间结果的多遍扫描合并,对流数据进行增量处理、单遍分析,以提高对流数据的实时分析能力。实验结果表明:上述方法可以对大规模流数据进行实时性处理,并且具有较好的可扩展性。
关键词
大数据
分布式计算
流数据处理
MAPREDUCE
Keywords
big data
data streams
distributed computing
real-time processing
MapReduce
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Hadoop MapReduce的分布式数据流聚类算法研究
被引量:
5
2
作者
蔡斌雷
任家东
朱世伟
郭芹
机构
山东省科学院情报研究所
燕山大学信息科学与工程学院
济南大学泉城学院
出处
《信息工程大学学报》
2014年第4期472-478,共7页
基金
国家自然科学基金资助项目(61170190)
国家青年基金资助项目(61004115)
文摘
随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点。文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC-Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析,实时发现数据流中任意形状的簇,定义检测周期和密度阈值函数并及时删除数据流中的噪声点。算法基于网格密度对数据流初始聚类后,随着新数据的到来,使用基于密度阈值函数的噪声点处理策略,周期性检测和删除噪声点,使用基于Hadoop MapReduce框架的并行分析模型周期性地调整已经生成的簇。实验结果表明,PGDC-Stream对大规模数据流的聚类质量、可伸缩性和实时性都好于CluStream。
关键词
数据挖掘
聚类
数据流聚类
分布式聚类
Keywords
data mining
clustering
data stream clustering
distributed clustering
Hadoop MapReduce
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Spark的云数据中心性能异常实时检测方法
3
作者
蔡斌雷
郭芹
机构
山东省科学院情报研究所
南开大学数学科学学院
出处
《西安职业技术学院学报》
2016年第3期1-5,19,共6页
基金
本文系2014年度山东省科技发展计划资助项目“智能交通大数据实时计算关键技术研究及应用”(项目编号:2014GGX101013)
2015年度山东省重点研发计划资助项目“基于大数据实时计算方法的交通流在线知识发现关键技术研究”(项目编号:2015GGX101032)阶段性成果.
文摘
针对当前云计算环境下数据中心性能异常检测方法的实时性、可扩展性问题,提出一种云数据中心环境下基于Spark的性能异常实时检测方法Spark—ADOPD(Spark-based Anomaly Detection OverPerformance DataInRealtime).方法设计基于Spark的分布式、可扩展流数据聚类算法对采集的云数据中心性能数据进行自动分类,建立性能异常预测模型;定义相似度函数,通过计算持续到达的性能数据与预测模型的相似度,挖掘性能异常行为,以动态调整资源分配.实验结果证明Spark-ADOPD具有较好的实时性和准确性.
关键词
异常检测
流数据聚类
SPARK
资源调度
云数据中心
Keywords
anomaly detection
stream data clustering
Spark
resource scheduling
cloud data center
分类号
TH453 [机械工程—机械制造及自动化]
下载PDF
职称材料
题名
基于积分算子技巧的容量相关估计
4
作者
郭芹
蔡斌雷
机构
济南大学泉城学院基础部
山东省科学院情报研究所
出处
《山东科学》
CAS
2013年第4期7-10,15,共5页
基金
国家自然科学基金(11071276)
文摘
利用与积分算子特征值下降速率有关的两种容量相关条件,在抽样是同分布且样本是独立选取的情况下,通过积分算子技巧和假设概率随机事件的方法给出了正则化最小二乘回归学习算法的一致性误差界,并将正则化最小二乘回归学习算法的学习速率提高到了O(m-β(1+2β))。
关键词
积分算子
最小二乘回归
误差界
学习速率
Keywords
integral operator
least squares regression
error bound
learning rate
分类号
O241.3 [理学—计算数学]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向大规模流数据的可扩展分布式实时处理方法
蔡斌雷
郭芹
朱世伟
任家东
《青岛科技大学学报(自然科学版)》
CAS
2016
2
下载PDF
职称材料
2
基于Hadoop MapReduce的分布式数据流聚类算法研究
蔡斌雷
任家东
朱世伟
郭芹
《信息工程大学学报》
2014
5
下载PDF
职称材料
3
基于Spark的云数据中心性能异常实时检测方法
蔡斌雷
郭芹
《西安职业技术学院学报》
2016
0
下载PDF
职称材料
4
基于积分算子技巧的容量相关估计
郭芹
蔡斌雷
《山东科学》
CAS
2013
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部