-
题名基于Storm的流数据KNN分类算法的研究与实现
被引量:7
- 1
-
-
作者
周志阳
冯百明
杨朋霖
温向慧
-
机构
西北师范大学计算机科学与工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2017年第19期71-75,97,共6页
-
基金
国家自然科学基金(No.61462076
No.61662067)
-
文摘
KNN算法是一种简单、有效且易于实现的分类算法,可用于类域较大的分类。近年来对KNN算法的研究偏向于静态大数据集,不过,在越来越多的情况下要用KNN算法在线实时处理流数据。考虑到流式数据流量大,连续且快速,不易存储和恢复等特性,以及流处理系统Storm对流数据处理具有实时性、可靠性的特点,提出了基于Storm的流数据KNN分类算法,该算法首先对整个样本集进行划分,形成多个片集,然后计算出待分类向量在各片集上的K近邻,最后再将所有片集K近邻归约得出整体K近邻,实现待分类向量的分类。实验结果表明,基于Storm的流数据KNN分类算法能够满足大数据背景下对流数据分类的高吞吐量、可扩展性、实时性和准确性的要求。
-
关键词
STORM
KNN算法
流数据
大数据
数据划分
-
Keywords
Storm
K-Nearest Neighbor(KNN)
streaming data
big data
data partition
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名基于Storm的AQI实时预测模型
被引量:3
- 2
-
-
作者
刘洪通
冯百明
温向慧
车翔飞
-
机构
西北师范大学计算机科学与工程学院
-
出处
《计算机工程与设计》
北大核心
2019年第1期296-301,共6页
-
基金
国家自然科学基金项目(61662067
61462076)
-
文摘
为解决大数据条件下,预测空气质量指数AQI存在计算耗时长,不能进行实时预测等问题,提出一种基于Storm的AQI实时预测模型S-OKNN。使用Storm计算框架,对KNN算法进行分布式拓展;利用Storm实时流数据计算特点,使模型能够实时预测AQI。实验结果表明,在保证预测精度的前提下,基于Storm的AQI实时预测模型S-OKNN比普通的KNN算法具有更快的处理速度、更高的吞吐量、更能满足实时预测AQI的需求。
-
关键词
Storm框架
K最近邻算法
空气质量指数
实时预测
大数据
-
Keywords
Storm framework
K-nearest neighbor
air quality index
real-time prediction
big data
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于OpenCL的并行kNN算法设计与实现
被引量:3
- 3
-
-
作者
杨朋霖
冯百明
周志阳
温向慧
-
机构
西北师范大学计算机科学与工程学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2017年第12期2198-2202,共5页
-
基金
国家自然科学基金(61462076)
-
文摘
kNN算法是机器学习和数据挖掘程序中经常使用的经典算法。随着数据量的增大,kNN算法的执行时间急剧上升。为了有效利用现代计算机的GPU等计算单元减少kNN算法的计算时间,提出了一种基于OpenCL的并行kNN算法,该算法对距离计算和排序两个瓶颈点进行并行化,在距离计算阶段使用细粒度并行化策略和优化的线程模型,排序阶段使用优化内存模型的双调排序。以UCI数据集letter为测试集,分别使用E8400和GTS450运行kNN算法进行测试,采用GPU加速的并行kNN算法的计算速度比CPU版提高了40.79倍。
-
关键词
OPENCL
GPU
KNN
双调排序
-
Keywords
OpenCL
GPU
kNN
bitonic sort
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-