基于Spark的压缩近邻算法被引量：2

Spark Based Condensed Nearest Neighbor Algorithm

下载PDF

导出

摘要 K-近邻(K-Nearest Neighbors,K-NN)是一种懒惰学习算法,用K-NN对数据分类时,不需要训练分类模型。K-NN算法的优点是思想简单、易于实现;缺点是计算量大,原因是在对测试样例进行分类时,其需要计算测试样例与训练集中每一个训练样例之间的距离。压缩近邻算法(Condensed Nearest Neighbors,CNN)可以克服K-NN算法的不足。但是,在面对大数据集时,由于自身的迭代计算特性,CNN的运算效率会变得非常低。针对这一问题,提出一种名为Spark CNN的压缩近邻算法。在大数据环境下,与基于MapReduce的CNN算法相比,Spark CNN的效率大幅提高,在5个大数据集上的实验证明了这一结论。 K-nearest neighbors（K-NN）is a lazy learning algorithm.It is unnecessary to train classification models,when one uses K-NN for data classification.K-NN algorithm is simple and easy to implement.The disadvantages of KNN is that it requires large number of computations,which is introduced by calculating distances between testing instance and every training instance.Condensed nearest neighbors（CNN）can overcome the drawback of K-NN mentioned above.However,CNN is an iterative algorithm,when it is applied in big data scenario,its efficiency becomes very low.In order to deal with this problem,this paper proposed an algorithm named Spark CNN.In big data circumstances,Spark CNN can significantly improve the efficiency of CNN.This paper experimentally compared the Spark CNN with MapReduce CNN on 5 big data sets,the experimental results show that the Spark CNN is very effective.

作者张素芳翟俊海王婷婷郝璞王聪赵春玲 ZHANG Su- fang1, ZHAI Jun- hai2 ,WANG Ting-ting2,HAO Pu2, WANG Cong2, ZHAO Chun- ling2(1Hebei Branch of China Meteorological Administration Training Centre,China Meteorological Administration, Baoding, Hebei 071000, China;2Key Lab. of Machine Learning and Computational Intelligence, College of Mathematics and Information Science, Hebei Universty,Baoding Hebei071002,Chn)

机构地区中国气象局气象干部培训学院河北分院河北大学数学与信息科学学院河北省机器学习与计算智能重点实验室

出处《计算机科学》 CSCD 北大核心 2018年第B06期406-410,共5页 Computer Science

基金国家自然科学基金项目(71371063) 河北省自然科学基金项目(F2017201026) 河北大学自然科学研究计划项目(799207217071) 河北大学大学生创新训练项目(2017071)资助

关键词压缩近邻大数据样例选择迭代计算懒惰学习 Condensed nearest neighbors Big data Instance selection Iterative calculation Lazy learning

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1文庆福,王建民,朱晗,曹越,龙明盛.面向近似近邻查询的分布式哈希学习方法[J].计算机学报,2017,40(1):192-206. 被引量：9
2刘义,景宁,陈荦,熊伟.MapReduce框架下基于R-树的k-近邻连接算法[J].软件学报,2013,24(8):1836-1851. 被引量：60
3翟俊海,郝璞,王婷婷,张明阳.MapReduce并行化压缩近邻算法[J].小型微型计算机系统,2017,38(12):2678-2682. 被引量：1

二级参考文献11

1Bohm C, Krebs F. The k-nearest neighbor join: Turbo charging the KDD process. Knowledge Information System, 2004,6(6): 728-749. [doi: 10.1007/s10115-003-0122-9].
2Xia CY, Lu HJ, Coi BC, Hu J. Gorder: An efficient method for KDD joins processing. In: Proc. of the 30th Int'l Conf. on Very Large Data Bases (VLDB). 2004. 756-767.
3Yao B, Li FF, Kumar P. K nearest neighbor queries and KNN-joins in large relational databases (almost) for free. In: Proc. of the 26th Int'l Conf. on Data Engineering (ICDE). 2010.4-15. [doi: 10.1109/ICDE.2010.5447837].
4Yu C, Cui B, Wang SG, Su JW. Efficient index-based KNN join processing for high-dimensional data. Information and Software Technology, 2007,49(4):332-344. [doi: 10.1016/j.infsof.2006.05.006].
5Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters. Communications of the ACM, 2008,51(1):107-113 [doi: 10.1145/1327452.1327492].
6White T. Hadoop: The Definitive Guide. Sebastopol: Yahoo! Press, 2009.
7Zhang C, Li FF, Jestes J. Efficient parallel kNN joins for large data in MapReduce. In: Proc. of the 15th Int'l Conf. on Extending Database Technology (EDBT). 2012.38-49. [doi: 10.1145/2247596.2247602].
8Lu W, Shen YY, Chen S, Col BC. Efficient processing of k nearest neighbor joins using MapReduce. In: Proc. of the 38th lnt'l Conf. on Very Large Data Bases (VLDB). 2012. 1016-1027.
9Liu Y, Jing N, Chen L, Chen HZ. Parallel bulk-loading of spatial data with MapReduce: An R4ree case. Wuhan University Journal of Natural Sciences, 2011,16(6):513-519. [doi: 10.1007/s11859-011-0790-3].
10Tao YF, Papadias D. Range aggregate processing in spatial databases. IEEE Trans. on Knowledge and Data Engineering, 2004, 16(12):1555-1570. [doi: 10.1109/TKDE.2004.93].

共引文献67

1刘琼,赵荣,孙立坚.Map/Reduce框架下的粗糙集空间数据挖掘改进算法[J].测绘科学,2014,39(5):49-53. 被引量：3
2代亮,许宏科,陈婷,钱超,梁殿鹏.基于MapReduce的多元线性回归预测模型[J].计算机应用,2014,34(7):1862-1866. 被引量：17
3陈晓康,刘竹松.基于改进Kd-Tree构建算法的k近邻查询[J].广东工业大学学报,2014,31(3):119-123. 被引量：8
4李玉丹,郑晓薇.Hadoop下多模式并行分类算法及其应用研究[J].计算机工程,2014,40(12):45-49. 被引量：2
5金菁.基于MapReduce模型的排序算法优化研究[J].计算机科学,2014,41(12):155-159. 被引量：6
6李贵兵,金炜东,蒋鹏,付小利,熊定鸿,谷鹏举.面向大规模监测数据的高铁故障诊断技术研究[J].系统仿真学报,2014,26(10):2458-2464. 被引量：10
7闫广,陈卿,刘晓文,郎佳敏.到时差计算中并行相关算法实验及性能分析[J].物联网技术,2015,5(2):52-55. 被引量：1
8蒋勇,赵作鹏.基于MapReduce模型的排序算法优化研究[J].计算机科学与探索,2015,9(4):410-417. 被引量：3
9李金海,何有世.在线评论信息挖掘分析的数据来源可靠性研究[J].软科学,2015,29(4):94-99. 被引量：6
10王飞,秦小麟,刘亮,沈尧.基于数据流的k-近邻连接算法[J].计算机科学,2015,42(5):204-210. 被引量：3

同被引文献8

1李红梅,郝文宁,陈刚.基于精确欧氏局部敏感哈希的协同过滤推荐算法[J].计算机应用,2014,34(12):3481-3486. 被引量：9
2翟俊海,苗青,李塔,王熙照.概率神经网络样例选择算法[J].小型微型计算机系统,2015,36(4):787-791. 被引量：2
3翟俊海,张明阳,王婷婷,郝璞.基于哈希技术和MapReduce的大数据集K-近邻算法[J].计算机科学,2017,44(7):210-214. 被引量：7
4苑思明,郑晗,李俊杰.基于哈夫曼树压缩的加密技术[J].信息记录材料,2018,19(6):57-58. 被引量：5
5廖旺坚,黄永峰,包从开.Spark并行计算框架的内存优化[J].计算机工程与科学,2018,40(4):587-593. 被引量：10
6朱洁,陆兴华.云存储环境下多媒体集成学习资源信息整合系统[J].信息技术,2019,43(6):125-129. 被引量：11
7陈建尧.一种基于Hive数据仓库的调度优化研究[J].科技通报,2018,0(8):113-117. 被引量：2
8周一枫,张华熊.抗倾斜的中文文本图像文件识别技术[J].计算机系统应用,2019,28(1):32-37. 被引量：3

引证文献2

1黄雅婕,翟俊海,周翔,申瑞彩,侯璎真.多哈希表投票样例选择算法[J].山西大学学报（自然科学版）,2020,43(4):713-718. 被引量：1
2黄思法.大数据时代多媒体网络信息整合与管理技术[J].北京印刷学院学报,2021,29(8):146-148. 被引量：1

二级引证文献2

1武晓朦,钟汶桦,张督瑶,单诗淇,王梦娜,李宜婷,林玮.基于“互联网+”教育信息平台的构建[J].科技资讯,2023,21(4):24-27.
2牛保民,行久红.基于网格技术的大数据样例选择算法研究[J].信息与电脑,2023,35(8):114-116.

1翟俊海,郝璞,王婷婷,张明阳.MapReduce并行化压缩近邻算法[J].小型微型计算机系统,2017,38(12):2678-2682. 被引量：1
2王金龙,周志峰.基于SIFT图像特征提取与FLANN匹配算法的研究[J].计算机测量与控制,2018,26(2):175-178. 被引量：26
3丁文秀,申学林,廖武林,周闻云,李媛,魏贵春,曹正琦.秦岭-大别及邻区S波速度及其在秭归地震定位中的应用[J].大地测量与地球动力学,2018,38(4):351-355.
4卞则康,王士同,王宇翔.基于特别的特征表示方法的局部线性KNN算法[J].计算机科学与探索,2018,12(1):134-142. 被引量：2
5方钦,陈建峡,张晓星,金淼,郑建,李秀卫.基于FKNN算法的GIS运行状态评估研究[J].湖北工业大学学报,2018,33(2):62-66. 被引量：1
6龚正,王强.基于微观图像的图像拼接算法研究[J].计算机工程与应用,2018,54(2):198-202. 被引量：2
7王建芳,刘冉东,谷振鹏,刘永利.一种改进专家信任的协同过滤推荐算法[J].计算机应用研究,2018,35(2):354-357. 被引量：4
8张鹏.铁路GSM-R无线网络场强覆盖的测试[J].设备管理与维修,2018(14):59-61. 被引量：2
9Xikui Wang,Jing Zhang,Jia Zeng,Shanlin Wang,Xinquan Yu,Youfa Zhang.Enhancing Nucleation and Detachment of Condensed Drops by Hybrid Wetting Surfaces[J].Journal of Bionic Engineering,2018,15(3):452-460. 被引量：2
10伍英,刘榕,邹卓,赖明苑.多塔矮塔斜拉桥合龙顶推力多目标优化研究[J].铁道科学与工程学报,2018,15(6):1481-1486. 被引量：8

计算机科学

2018年第B06期

浏览历史

内容加载中请稍等...

基于Spark的压缩近邻算法被引量：2

参考文献3

二级参考文献11

共引文献67

同被引文献8

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于Spark的压缩近邻算法 被引量：2

参考文献3

二级参考文献11

共引文献67

同被引文献8

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于Spark的压缩近邻算法被引量：2