基于哈希技术和MapReduce的大数据集K-近邻算法被引量：7

K-Nearest Neighbor Algorithm Based on Hash Technology and MapRecuce

下载PDF

导出

摘要 K-近邻是一种著名的分类算法。由于简单且易于实现,因此其被广泛应用于许多领域,如人脸识别、基因分类、决策支持等。然而,在大数据环境中,K-近邻算法变得非常低效,甚至不可行。针对这一问题,提出了一种基于哈希技术和MapReduce的大数据集K-近邻分类算法。为了验证算法的有效性,在4个大数据集上进行了实验,结果显示,在保持分类能力的前提下,所提算法可以大幅度地提高K-近邻算法的效率。 K-nearest neighbor（K-NN）is a famous classification algorithm.Because the idea of K-NN is simple and it is easy to implement,K-NN has been widely applied to many fields,such as face recognition,gene classification and decision making,etc.However,in the big data environment,the efficiency of K-NN is very low,even it is not workable.In order to deal with this problem,based on hash technology and MapRecuce,this paper proposed an improved K-nearest neighbor algorithm.In order to verify the effectiveness of the proposed algorithm,some experiments were conducted on4 big data sets.The experimental results show that the proposed algorithm is effective and efficient.

作者翟俊海张明阳王婷婷郝璞

机构地区河北大学数学与信息科学学院

出处《计算机科学》 CSCD 北大核心 2017年第7期210-214,共5页 Computer Science

基金国家自然科学基金项目(71371063) 河北省自然科学基金项目(F2017201026) 河北省高等学校科学技术研究重点项目(ZD20131028) 河北大学研究生创新资助项目(X2016059)资助

关键词 K-近邻哈希技术分类算法大数据集 K-nearest neighbor Hash technology Classification algorithms Big data sets

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1李武军,周志华.大数据哈希学习:现状与趋势[J].科学通报,2015,60(5):485-490. 被引量：44

二级参考文献52

1Mayer-Sch?nberger V, Cukier K. Big Data: A Revolution That Will Transform How We Live, Work, and Think. Boston: Eamon Dolan/Houghton Mifflin Harcourt, 2013.
2Hey T, Tansley S, Tolle K. The Fourth Paradigm: Data-Intensive Scientific Discovery. Redmond: Microsoft Research, 2009.
3Bryant R E. Data-intensive scalable computing for scientific applications. Comput Sci Engin, 2011, 13: 25-33.
4周志华. 机器学习与数据挖掘. 中国计算机学会通讯, 2007, 3: 35-44.
5Zhou Z H, Chawla N V, Jin Y, et al. Big data opportunities and challenges: Discussions from data analytics perspectives. IEEE Comput Intell Mag, 2014, 9: 62-74.
6Jordan M. Message from the president: The era of big data. ISBA Bull, 2011, 18: 1-3.
7Kleiner A, Talwalkar A, Sarkar P, et al. The big data bootstrap. In: Proceedings of the 29th International Conference on Machine Learning (ICML), Edinburgh, 2012, 1759-1766.
8Shalev-Shwartz S, Zhang T. Accelerated proximal stochastic dual coordinate ascent for regularized loss minimization. In: Proceedings of the 31st International Conference on Machine Learning (ICML), Beijing, 2014, 64-72.
9Gonzalez J E, Low Y, Gu H, et al. PowerGraph: Distributed graph-parallel computation on natural graphs. In: Proceedings of the 10th USENIX Symposium on Operating Systems Design and Implementation (OSDI), Hollywood, 2012, 17-30.
10Gao W, Jin R, Zhu S, et al. One-pass AUC optimization. In: Proceedings of the 30th International Conference on Machine Learning (ICML), Atlanta, 2013, 906-914.

共引文献43

1谭喆.多模态数据哈希检索方法综述[J].信息通信,2016,29(3):179-180.
2聂秀山,王舒婷,尹义龙.基于特征融合和曼哈顿量化的视频哈希学习方法[J].南京大学学报（自然科学版）,2016,52(4):705-713.
3刘宁,赵建华,冯骜骜.基于主动学习的有监督在线多核学习算法[J].河南科学,2016,34(9):1423-1427. 被引量：2
4王欢,屠长河.基于哈希学习的动作捕捉数据的编码与检索[J].计算机辅助设计与图形学学报,2016,28(12):2151-2158. 被引量：3
5翟俊海,王婷婷,张明阳,王耀达,刘明明.2种加速K-近邻方法的实验比较[J].河北大学学报（自然科学版）,2016,36(6):650-656. 被引量：3
6王丹,赵文兵,丁治明.大数据安全保障关键技术分析综述[J].北京工业大学学报,2017,43(3):335-349. 被引量：44
7曾宪华,袁知洪,王国胤,杨洁.基于多特征多核哈希学习的大规模图像检索[J].中国科学：信息科学,2017,47(8):1109-1126. 被引量：6
8曹路,杨文强.基于离散监督哈希的相似性检索算法[J].科学技术与工程,2017,17(26):245-250. 被引量：3
9翟俊海,郝璞,王婷婷,张明阳.MapReduce并行化压缩近邻算法[J].小型微型计算机系统,2017,38(12):2678-2682. 被引量：1
10于晓,聂秀山,马林元,尹义龙.基于短空时变化的鲁棒视频哈希算法[J].计算机科学,2018,45(2):84-89. 被引量：3

同被引文献46

1史卫亚,郭跃飞,薛向阳.一种解决大规模数据集问题的核主成分分析算法[J].软件学报,2009,20(8):2153-2159. 被引量：19
2张士勤,徐传胜.不确定性集合理论及其研究进展[J].西北大学学报（自然科学版）,2009,39(4):696-700. 被引量：2
3李成华,张新访,金海,向文.MapReduce:新型的分布式并行计算编程模型[J].计算机工程与科学,2011,33(3):129-135. 被引量：111
4袁培森,沙朝锋,王晓玲,周傲英.一种基于学习的高维数据c-近似最近邻查询算法[J].软件学报,2012,23(8):2018-2031. 被引量：18
5毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计算机工程与应用,2012,48(27):22-26. 被引量：65
6朱宗斌,杜中军.基于改进GA的云计算任务调度算法[J].计算机工程与应用,2013,49(5):77-80. 被引量：32
7郝晓飞,谭跃生,王静宇.Hadoop平台上Apriori算法并行化研究与实现[J].计算机与现代化,2013(3):1-4. 被引量：26
8李晨,郭跃飞.一种用于高维大数据的协方差无关的主成分分析迭代算法(英文)[J].复旦学报（自然科学版）,2013,52(2):207-214. 被引量：1
9孙大为,常桂然,陈东,王兴伟.云计算环境中绿色服务级目标的分析、量化、建模及评价[J].计算机学报,2013,36(7):1509-1525. 被引量：30
10卢鑫,陈华辉,董一鸿,钱江波.MapReduce框架下的不确定数据Top-k查询计算[J].模式识别与人工智能,2013,26(7):695-704. 被引量：7

引证文献7

1阳小兰,钱程,朱福喜.基于云计算的大数据服务资源评价方法[J].计算机科学,2018,45(5):295-299. 被引量：13
2刘帅.MapReduce编程模型中key值二次分类算法[J].计算机时代,2018(3):58-59. 被引量：1
3薛愈洁.一种基于Value均值的MapReduce任务分配策略[J].太原学院学报（自然科学版）,2019,37(1):56-59. 被引量：1
4郭玉栋,左金平.基于Hadoop改进的云任务调度算法研究[J].晋中学院学报,2019,36(3):56-60. 被引量：3
5黄雅婕,翟俊海,周翔,申瑞彩,侯璎真.多哈希表投票样例选择算法[J].山西大学学报（自然科学版）,2020,43(4):713-718. 被引量：1
6张仕斌,黄曦,昌燕,闫丽丽,程稳.大数据环境下量子机器学习的研究进展及发展趋势[J].电子科技大学学报,2021,50(6):802-819. 被引量：9
7翟俊海,沈矗,张素芳,王婷婷.基于Spark和SimHash的大数据K-近邻分类算法[J].河北大学学报（自然科学版）,2019,39(2):201-210. 被引量：3

二级引证文献31

1林跃,孙杰青,欧海翔.浅析MapReduce实例之WordCount[J].计算机产品与流通,2020,0(5):29-29.
2毕娅,原惠群,初叶萍,刘慧.大数据环境下基于公共服务平台的资源多级智能寻租与匹配策略和价值创造[J].计算机科学,2019,46(2):42-49. 被引量：3
3宋阳,石鸿雁.基于MapReduce框架下的K-means聚类算法的改进[J].计算机与现代化,2019,0(8):28-32. 被引量：7
4吴修国,刘翠.云存储系统中最小开销的数据副本布局转换策略[J].计算机科学,2019,46(10):202-208. 被引量：1
5郑瑛.云计算数据中心节能调度算法改进研究[J].西南大学学报（自然科学版）,2019,41(12):135-142. 被引量：5
6张运良.大数据服务中知识组织的挑战及应对[J].图书情报工作,2020,64(4):88-94. 被引量：4
7冯刚强,韩一石,王运博,程家豪.基于用户偏好的网络质量QoE感知建模仿真分析[J].计算机仿真,2020,37(4):356-360. 被引量：2
8翟俊海,田石,张素芳,王谟瀚,宋丹丹.基于MapReduce和Spark的大数据模糊K-means算法比较[J].河北大学学报（自然科学版）,2020,40(4):433-440. 被引量：2
9姚俊峰,黄建忠,唐志伟.网络协议实验教学云平台的设计与应用[J].计算机教育,2020(9):104-107. 被引量：2
10熊晓,陈悦,吴海波.农业机械信息管理平台中会计智能化监测技术研究[J].农机化研究,2021,43(3):245-248. 被引量：6

1王生生,曹容川,曹雷.结合显著相似性的局部约束线性编码[J].华中科技大学学报（自然科学版）,2017,45(6):21-25.
2牛志华.基于Spark的权重树随机森林算法[J].中国科技信息,2017(13):75-76.
3李蒙蒙,尚志刚,李志辉.结合投影与近邻操作的支持向量快速筛选方法[J].郑州大学学报（工学版）,2017,38(3):49-53.
4张宸,韩夏.大数据环境下基于SVM-WNB的网络舆情分类研究[J].统计与决策,2017,33(14):45-48. 被引量：17
5周明非,汪西莉,王磊,陈粉.高分辨卫星图像卷积神经网络分类模型[J].中国图象图形学报,2017,22(7):996-1007. 被引量：11

计算机科学

2017年第7期

浏览历史

内容加载中请稍等...

基于哈希技术和MapReduce的大数据集K-近邻算法被引量：7

参考文献1

二级参考文献52

共引文献43

同被引文献46

引证文献7

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

基于哈希技术和MapReduce的大数据集K-近邻算法 被引量：7

参考文献1

二级参考文献52

共引文献43

同被引文献46

引证文献7

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

基于哈希技术和MapReduce的大数据集K-近邻算法被引量：7