Spark下的并行多标签最近邻算法被引量：1

Parallel multi-label K-nearest neighbor algorithm based on Spark

下载PDF

导出

摘要随着大数据时代的到来,大规模多标签数据挖掘方法受到广泛关注。多标签最近邻算法MLKNN是一种简单高效、应用广泛的多标签分类方法,其分类精度在很多应用中都高于其他常见的多标签学习方法。然而随着需要处理的数据规模越来越大,传统串行ML-KNN算法已经难以满足大数据应用中时间和存储空间上的限制。结合Spark的并行机制和其基于内存的迭代计算特点,提出了一种基于Spark并行框架的ML-KNN算法SML-KNN。在Map阶段分别找到待预测样本每个分区的K近邻,随后Reduce阶段根据每个分区的近邻集合确定最终的K近邻,最后并行地对近邻的标签集合进行聚合,通过最大化后验概率准则输出待预测样本的目标标签集合。串行和并行环境下的对比实验结果表明,SML-KNN在保证分类精度的前提下性能与计算资源呈近似线性关系,提高了ML-KNN算法对大规模多标签数据的处理能力。 With the advent of big data era, applications of large-scale multi-label data mining have attracted extensive attention. The Multi-Label K-Nearest Neighbor （ML-KNN） is a simple, efficient and widely used method which outperforms other traditional multi-label learning algorithms in many realworld applications. However, as an increasing number of data need to be dealt with, the ML-KNN algorithm is unable to meet the requirements of time and memory space. Combined with the parallel mechanism and iterative computation in the memory of Spark, we propose an algorithm based on Spark distributed in-memory computing platform, named SML-KNN. First, in the stage of map,we try to find the K nearest neighbors for each partition of the samples to be tested. Then in the reduce stage, we determine the final K nearest neighbors according to the K nearest neighbors of each partition. Finally, we cluster the label sets of the K nearest neighbors in parallel, and output the target label sets using the maximum posterior probability （MAP） principle. The experiments in stand-alone and cluster environments show that in the premise of ensuring the classification accuracy, the performance of the SML-KNN has an approximate linear relationship with computing resources, and the proposed algorithm can enhance the processing ability of the ML-KNN when dealing with large scale multi-label data.

作者王进夏翠萍欧阳卫华王鸿邓欣陈乔松

机构地区重庆邮电大学计算智能重庆市重点实验室

出处《计算机工程与科学》 CSCD 北大核心 2017年第2期227-235,共9页 Computer Engineering & Science

基金重庆市基础与前沿研究计划项目(csts2014jcyjA40001 cstc2014jcyjA40022) 重庆市教委科学技术研究项目(自然科学类)(KJ1400436)

关键词多标签学习多标签最近邻算法 SPARK 并行 multi-label learning ML-KNN Spark parallel

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献2

1李玲,刘华文,马宗杰,赵建民.基于特征选择的集成多标签分类算法[J].计算机工程与科学,2013,35(10):137-143. 被引量：1
2檀何凤,刘政怡.基于标签相关性的K近邻多标签分类方法[J].计算机应用,2015,35(10):2761-2765. 被引量：12

引证文献1

1陆凯,徐华.基于最近邻距离权重的ML-KNN算法[J].计算机应用研究,2020,37(4):982-985. 被引量：4

二级引证文献4

1季德强,王海荣,车淼,王嘉鑫.KNN-GWD推荐模型及其应用[J].应用科学学报,2022,40(1):145-154. 被引量：1
2王二化.基于FFT和WPT的微铣刀磨损特征提取[J].组合机床与自动化加工技术,2020(12):160-164. 被引量：1
3伍一维,左韬,张劲波,胡新宇.基于KNN-PROSAC和改进ORB的多机器人SLAM地图融合算法[J].高技术通讯,2021,31(7):766-772. 被引量：3
4胡挺峰.基于ML-kNN算法的大数据分类系统设计[J].信息与电脑,2022,34(1):71-73. 被引量：5

1钱燕燕,李永忠,余西亚.基于多标记与半监督学习的入侵检测方法研究[J].计算机科学,2015,42(2):134-136. 被引量：15
2王霄,周李威,陈耿,朱玉全.一种基于标签相关性的多标签分类算法[J].计算机应用研究,2014,31(9):2609-2612. 被引量：9
3张雨婷,叶东毅,柯逍,陈昭炯.适应目标尺度变化的改进压缩跟踪算法[J].模式识别与人工智能,2016,29(11):985-996.
4许朝阳.基于多标记文本分类的ML-KNN改进算法[J].江苏师范大学学报（自然科学版）,2012,30(3):27-30. 被引量：1
5王春艳.一种加权的ML—kNN算法[J].电脑知识与技术,2012,8(2):816-818.
6程圣军,黄庆成,刘家锋,唐降龙.一种改进的ML-kNN多标记文档分类方法[J].哈尔滨工业大学学报,2013,45(11):45-49. 被引量：4
7钱燕燕,李永忠,章雷,余西亚.一种多标记学习入侵检测算法[J].合肥工业大学学报（自然科学版）,2015,38(7):929-933. 被引量：3
8王连喜,蒋盛益.面向分类特征的无监督特征选择方法研究[J].小型微型计算机系统,2011,32(1):47-50. 被引量：5
9乔健,田庆.利用最近邻信息快速分类多标签数据[J].计算机工程与应用,2011,47(32):138-140. 被引量：3
10张顺,张化祥.用于多标记学习的K近邻改进算法[J].计算机应用研究,2011,28(12):4445-4446. 被引量：10

计算机工程与科学

2017年第2期

浏览历史

内容加载中请稍等...

Spark下的并行多标签最近邻算法被引量：1

同被引文献2

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

Spark下的并行多标签最近邻算法 被引量：1

同被引文献2

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

Spark下的并行多标签最近邻算法被引量：1