MapReduce并行化压缩近邻算法被引量：1

Parallelization of Condensed Nearest Neighbor Algorithm with MapReduce

下载PDF

导出

摘要压缩近邻(CNN:Condensed Nearest Neighbors)是Hart针对K-近邻(K-NN:K-Nearest Neighbors)提出的样例选择算法,目的是为了降低K-NN算法的内存需求和计算负担.但在最坏情况下,CNN算法的计算时间复杂度为O(n3),n为训练集中包含的样例数.当CNN算法应用于大数据环境时,高计算时间复杂度会成为其应用的瓶颈.针对这一问题,本文提出了基于MapReduce并行化压缩近邻算法.在Hadoop环境下,编程实现了并行化的CNN,并与原始的CNN算法在6个数据集上进行了实验比较.实验结果显示,本文提出的算法是行之有效的,能解决上述问题. CNN （Condensed Nearest Neighbors） proposed by Hart is an instance selection algorithm which aims at decreasing the memory and computation requirements. However,in the worst cases, the computational time complexity of CNN is O（ n3 ）, where, n is the number of instances in a training set. When CNN is applied to big data, high computational time complexity will become the bottle- neck of its application. In order to deal with this problem, a parallelized CNN with MapReduce is proposed in this paper. We implement the proposed algorithm in Hadoop environment,and experimentally compare it with original CNN on 6 data sets. The experimental results show that the proposed algorithm is effective and efficient, and can overcome the mentioned problem.

作者翟俊海郝璞王婷婷张明阳

机构地区河北大学数学与信息科学学院河北省机器学习与计算智能重点实验室浙江师范大学数理与信息工程学院

出处《小型微型计算机系统》 CSCD 北大核心 2017年第12期2678-2682,共5页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(71371063)资助河北省自然科学基金项目(F2017201026)资助浙江省计算机科学与技术重中之重学科(浙江师范大学)课题项目资助

关键词压缩近邻 K-近邻样例选择 MAPREDUCE condensed nearest neighbors K-nearest neighbors instance selection MapReduce

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1李武军,周志华.大数据哈希学习:现状与趋势[J].科学通报,2015,60(5):485-490. 被引量：44

二级参考文献52

1Mayer-Sch?nberger V, Cukier K. Big Data: A Revolution That Will Transform How We Live, Work, and Think. Boston: Eamon Dolan/Houghton Mifflin Harcourt, 2013.
2Hey T, Tansley S, Tolle K. The Fourth Paradigm: Data-Intensive Scientific Discovery. Redmond: Microsoft Research, 2009.
3Bryant R E. Data-intensive scalable computing for scientific applications. Comput Sci Engin, 2011, 13: 25-33.
4周志华. 机器学习与数据挖掘. 中国计算机学会通讯, 2007, 3: 35-44.
5Zhou Z H, Chawla N V, Jin Y, et al. Big data opportunities and challenges: Discussions from data analytics perspectives. IEEE Comput Intell Mag, 2014, 9: 62-74.
6Jordan M. Message from the president: The era of big data. ISBA Bull, 2011, 18: 1-3.
7Kleiner A, Talwalkar A, Sarkar P, et al. The big data bootstrap. In: Proceedings of the 29th International Conference on Machine Learning (ICML), Edinburgh, 2012, 1759-1766.
8Shalev-Shwartz S, Zhang T. Accelerated proximal stochastic dual coordinate ascent for regularized loss minimization. In: Proceedings of the 31st International Conference on Machine Learning (ICML), Beijing, 2014, 64-72.
9Gonzalez J E, Low Y, Gu H, et al. PowerGraph: Distributed graph-parallel computation on natural graphs. In: Proceedings of the 10th USENIX Symposium on Operating Systems Design and Implementation (OSDI), Hollywood, 2012, 17-30.
10Gao W, Jin R, Zhu S, et al. One-pass AUC optimization. In: Proceedings of the 30th International Conference on Machine Learning (ICML), Atlanta, 2013, 906-914.

共引文献43

1谭喆.多模态数据哈希检索方法综述[J].信息通信,2016,29(3):179-180.
2聂秀山,王舒婷,尹义龙.基于特征融合和曼哈顿量化的视频哈希学习方法[J].南京大学学报（自然科学版）,2016,52(4):705-713.
3刘宁,赵建华,冯骜骜.基于主动学习的有监督在线多核学习算法[J].河南科学,2016,34(9):1423-1427. 被引量：2
4王欢,屠长河.基于哈希学习的动作捕捉数据的编码与检索[J].计算机辅助设计与图形学学报,2016,28(12):2151-2158. 被引量：3
5翟俊海,王婷婷,张明阳,王耀达,刘明明.2种加速K-近邻方法的实验比较[J].河北大学学报（自然科学版）,2016,36(6):650-656. 被引量：3
6王丹,赵文兵,丁治明.大数据安全保障关键技术分析综述[J].北京工业大学学报,2017,43(3):335-349. 被引量：44
7翟俊海,张明阳,王婷婷,郝璞.基于哈希技术和MapReduce的大数据集K-近邻算法[J].计算机科学,2017,44(7):210-214. 被引量：7
8曾宪华,袁知洪,王国胤,杨洁.基于多特征多核哈希学习的大规模图像检索[J].中国科学：信息科学,2017,47(8):1109-1126. 被引量：7
9曹路,杨文强.基于离散监督哈希的相似性检索算法[J].科学技术与工程,2017,17(26):245-250. 被引量：3
10于晓,聂秀山,马林元,尹义龙.基于短空时变化的鲁棒视频哈希算法[J].计算机科学,2018,45(2):84-89. 被引量：3

同被引文献2

1刘义,景宁,陈荦,熊伟.MapReduce框架下基于R-树的k-近邻连接算法[J].软件学报,2013,24(8):1836-1851. 被引量：60
2文庆福,王建民,朱晗,曹越,龙明盛.面向近似近邻查询的分布式哈希学习方法[J].计算机学报,2017,40(1):192-206. 被引量：9

引证文献1

1张素芳,翟俊海,王婷婷,郝璞,王聪,赵春玲.基于Spark的压缩近邻算法[J].计算机科学,2018,45(B06):406-410. 被引量：2

二级引证文献2

1黄雅婕,翟俊海,周翔,申瑞彩,侯璎真.多哈希表投票样例选择算法[J].山西大学学报（自然科学版）,2020,43(4):713-718. 被引量：1
2黄思法.大数据时代多媒体网络信息整合与管理技术[J].北京印刷学院学报,2021,29(8):146-148. 被引量：1

1崔丽娜.基于聚类的非平衡K-NN分类方法[J].现代计算机,2017,23(22):6-9.
2何坚,周明我,王晓懿.基于卡尔曼滤波与k-NN算法的可穿戴跌倒检测技术研究[J].电子与信息学报,2017,39(11):2627-2634. 被引量：12
3王鹏,杨华民,邱宁佳,杨迪,李松江.基于CNN算法的网络信任等级模型研究[J].长春理工大学学报（自然科学版）,2017,40(4):93-98. 被引量：1
4宋雪.媒资管理系统中编目的应用[J].西部广播电视,2017,38(22):220-220. 被引量：2
5陈红艳.四元教学设计在房地产估价课程教学中的应用研究[J].教育教学论坛,2017(50):154-155. 被引量：3
6徐久成,穆辉宇,冯森.基于PCA和多邻域粗糙集的肿瘤特征基因选择算法[J].郑州大学学报（理学版）,2017,49(4):28-33. 被引量：3
7XIAO Xiangdong,XIE Liqun,BI Ying.Ecological Technologies of Applying Plants on Glass Curtain Walls[J].Journal of Landscape Research,2012,4(11):54-56.
8薛松,沈明,李鑫,徐帅.两种断经位置定位方式的比较[J].山东纺织科技,2017,58(6):9-11.
9王晓,赵丽.基于待测样本标记的加速K-NN分类方法[J].计算机与现代化,2017(9):102-105. 被引量：1

小型微型计算机系统

2017年第12期

浏览历史

内容加载中请稍等...

MapReduce并行化压缩近邻算法被引量：1

参考文献1

二级参考文献52

共引文献43

同被引文献2

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

MapReduce并行化压缩近邻算法 被引量：1

参考文献1

二级参考文献52

共引文献43

同被引文献2

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

MapReduce并行化压缩近邻算法被引量：1