期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
Spark下的并行多标签最近邻算法 被引量:1
1
作者 王进 夏翠萍 +3 位作者 欧阳卫华 王鸿 邓欣 陈乔松 《计算机工程与科学》 CSCD 北大核心 2017年第2期227-235,共9页
随着大数据时代的到来,大规模多标签数据挖掘方法受到广泛关注。多标签最近邻算法MLKNN是一种简单高效、应用广泛的多标签分类方法,其分类精度在很多应用中都高于其他常见的多标签学习方法。然而随着需要处理的数据规模越来越大,传统串... 随着大数据时代的到来,大规模多标签数据挖掘方法受到广泛关注。多标签最近邻算法MLKNN是一种简单高效、应用广泛的多标签分类方法,其分类精度在很多应用中都高于其他常见的多标签学习方法。然而随着需要处理的数据规模越来越大,传统串行ML-KNN算法已经难以满足大数据应用中时间和存储空间上的限制。结合Spark的并行机制和其基于内存的迭代计算特点,提出了一种基于Spark并行框架的ML-KNN算法SML-KNN。在Map阶段分别找到待预测样本每个分区的K近邻,随后Reduce阶段根据每个分区的近邻集合确定最终的K近邻,最后并行地对近邻的标签集合进行聚合,通过最大化后验概率准则输出待预测样本的目标标签集合。串行和并行环境下的对比实验结果表明,SML-KNN在保证分类精度的前提下性能与计算资源呈近似线性关系,提高了ML-KNN算法对大规模多标签数据的处理能力。 展开更多
关键词 多标签学习 多标签最近邻算法 SPARK 并行
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部