并行MapReduce模型下的一种改进型KNN分类算法被引量：2

A Modified Bi-Measurement Central Index KNN Classification Algorithm Based on MapReduce

下载PDF

导出

摘要大数据时代带来数据处理模式的变革,依托Hadoop分布式编程框架处理大数据问题是当前该领域的研究热点之一。为解决海量数据挖掘中的分类问题,提出基于一种双度量中心索引KNN分类算法。该算法在针对存在类别域的交叉或重叠较多的大数据,先对训练集进行中心点的确定,通过计算分类集与训练集中心点的欧式距离,确定最相似的3个类别,然后以余弦距离为度量,通过索引选择找出K个近邻点,经过MapReduce编程框架对KNN并行计算加以实现。最后在UCI数据库进行比较验证,结果表明提出的并行化改进算法在准确率略有提高的基础上,运算效率得到了极大提高。 Big data era has a revolution on the data processing mode, and the way dealing with bigdata by Hadoop distributed framework becomes one of the most popular research topics. Cloud computing model of clusters covers the shortage of the large amount of calculation and time-consuming of traditional non-dis- tributed algorithm, meanwhile huge amounts of unstructured data increases the difficulty of data utilization. Aimed at the problem of solving the mass classification in data mining, this essay puts forward a algorithm, i.e. Bi-Measurement Central Index KNN Classification. And the algorithm mainly deals with in the field of the cross or overlap data. First, the essay is to find center of training data, then calculate the Eu- clidean distance between classifying data and training sites, and determine the most similar to the three categories. In addition, the essay selects k nearest neighbor points by the cosine distance metric, and computes the results by MapReduce. Finally, the UCI database is compared with and verified. The results show that though the amplitude of improving the accuracy by the proposed algorithm is not very great, the efficiency of the algorithm is greatly improved.

作者韦泽鲲夏靖波付凯申建陈珍

机构地区空军工程大学信息与导航学院

出处《空军工程大学学报（自然科学版）》 CSCD 北大核心 2017年第1期92-98,共7页 Journal of Air Force Engineering University(Natural Science Edition)

基金陕西省科技计划自然基金重点项目(2012JZ8005)

关键词大数据 HADOOP 数据挖掘双度量中心索引 MAPREDUCE big data Hadoop data mining techniques bi-measurement central index

分类号 TN391 [电子电信—物理电子学]

引文网络
相关文献

参考文献3

1钱强,庞林斌,高尚.一种基于改进型KNN算法的文本分类方法[J].江苏科技大学学报（自然科学版）,2013,27(4):381-385. 被引量：3
2耿丽娟,李星毅.用于大数据分类的KNN算法研究[J].计算机应用研究,2014,31(5):1342-1344. 被引量：62
3鲁婷,王浩,姚宏亮.一种基于中心文档的KNN中文文本分类算法[J].计算机工程与应用,2011,47(2):127-130. 被引量：17

二级参考文献32

1袁方,苑俊英.基于类别核心词的朴素贝叶斯中文文本分类[J].山东大学学报（理学版）,2006,41(3):111-114. 被引量：12
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：389
3宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：43
4袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：154
5Han E H, Gerge K, Vipln K, et al.Text categorization using weight adjusted k-nearest neighbor classification, Technical Report#00--046[R].University of Minnesota,2000.
6Chakrabarti S, Joshi M, Tawde V.Enhanced topic distillation using text,markup tags,and hyperlinks[C]//ACM SIGIR,2001.
7王潇.基于向量空间模型的文本自动分类算法的研究与改进[D].西安:西北师范大学,2007.
8Li Sujian, Zhang Jian, Huang Xiong.Semantic computation in Chinese question-answering system[J].Joumal of Computer Science and Technology, 2002.
9Dong Z D,Dong Q.HowNet[EB/OL].http://www.keenage.com.
10Seo H C,Chung H J,Rim H C.Unsupervised word sense disam- biguation using WordNet relatives[J].Computer Speech and Language, 2004,18(3) :253-273.

共引文献79

1冯蕴天,王国良,韩慧,许雄,陈翔,吴若无,邰宁.面向电磁大数据的未知雷达辐射源智能识别[J].太赫兹科学与电子信息学报,2021,19(4):589-595. 被引量：4
2徐璐,周亚建.基于特征恢复的中文残缺文本分类研究[J].北京电子科技学院学报,2011,19(4):23-29.
3李南,郭躬德.面向高速数据流的集成分类器算法[J].计算机应用,2012,32(3):629-633. 被引量：4
4张爱科.基于改进的最大熵均值聚类方法在文本分类中的应用[J].计算机应用研究,2012,29(4):1297-1299. 被引量：4
5刘忠,刘洋,建晓.基于KD-Tree的KNN文本分类算法[J].网络安全技术与应用,2012(5):38-40. 被引量：3
6茅剑,刘晋明,曹勇.一种基于密度的改进KNN文本分类算法[J].漳州师范学院学报（自然科学版）,2012,25(2):45-48. 被引量：2
7张培颖,王雷全.基于语义距离的文本分类方法[J].计算机技术与发展,2013,23(1):128-130. 被引量：4
8钱强,庞林斌,高尚.一种基于改进型KNN算法的文本分类方法[J].江苏科技大学学报（自然科学版）,2013,27(4):381-385. 被引量：3
9易军凯,田立康.基于类别区分度的文本特征选择算法研究[J].北京化工大学学报（自然科学版）,2013,40(B12):72-75. 被引量：4
10耿丽娟,李星毅.用于大数据分类的KNN算法研究[J].计算机应用研究,2014,31(5):1342-1344. 被引量：62

同被引文献30

1高殊丽.基于MapReduce框架的网页并行去重算法研究[J].黑龙江科学,2010,1(5):13-18. 被引量：1
2陈全,邓倩妮.云计算及其关键技术[J].计算机应用,2009,29(9):2562-2567. 被引量：934
3栾亚建,黄翀民,龚高晟,赵铁柱.Hadoop平台的性能优化研究[J].计算机工程,2010,36(14):262-263. 被引量：51
4刘超,金海,蒋文斌,李浩.基于MapReduce的数据密集型应用性能优化研究[J].武汉理工大学学报,2010,32(20):36-40. 被引量：3
5王德文,宋亚奇,朱永利.基于云计算的智能电网信息平台[J].电力系统自动化,2010,34(22):7-12. 被引量：195
6李成华,张新访,金海,向文.MapReduce:新型的分布式并行计算编程模型[J].计算机工程与科学,2011,33(3):129-135. 被引量：112
7江务学,张璟,王志明.MapReduce并行编程架构模型研究[J].微电子学与计算机,2011,28(6):168-170. 被引量：23
8李建江,崔健,王聃,严林,黄义双.MapReduce并行编程模型研究综述[J].电子学报,2011,39(11):2635-2642. 被引量：187
9胡俊,胡贤德,程家兴.基于Spark的大数据混合计算模型[J].计算机系统应用,2015,24(4):214-218. 被引量：56
10陈侨安,李峰,曹越,龙明盛.基于运行数据分析的Spark任务参数优化[J].计算机工程与科学,2016,38(1):11-19. 被引量：22

引证文献2

1黄奇鹏,卢山.海量关系数据去重处理技术研究与优化[J].计算机与数字工程,2018,46(10):2061-2065. 被引量：2
2潘卫军,刘皓晨,王润东,胡博文.基于ANN的改进Spark系统在空管大数据处理中的应用[J].计算机与现代化,2020(12):78-82. 被引量：1

二级引证文献3

1王红勤,潘正军,袁丽娜.基于Hadoop平台的数据挖掘算法的研究[J].电脑知识与技术,2019,15(8Z):9-11. 被引量：4
2贾晓强.基于多目标决策的时间序列数据挖掘算法[J].电子设计工程,2021,29(17):45-49. 被引量：3
3姜莉.基于大数据背景下的计算机信息处理技术研究[J].信息记录材料,2023,24(2):85-87. 被引量：2

1韩云飞,张太红,白涛.融合Mel系数和kNN的语音端点检测[J].信息技术,2017,41(3):37-41. 被引量：2
2陶彩霞,谢晓军,陈康,郭利荣,刘春.基于云计算的移动互联网大数据用户行为分析引擎设计[J].电信科学,2013,29(3):27-31. 被引量：33
3林嘉宇,黄芝平,王跃科,沈振康.语音信号相空间重构中嵌入维数的选择[J].电子科学学刊,1999,21(6):735-742. 被引量：4
4牛咏梅.基于粗糙集的海量数据挖掘算法研究[J].现代电子技术,2016,39(7):115-119. 被引量：10
5张贵红,李中华.基于粗糙集的海量数据挖掘算法研究[J].现代电子技术,2016,39(17):116-119. 被引量：8
6林嘉宇,王跃科,黄芝平,沈振康.一种新的基于混沌的语音、噪声判别方法[J].通信学报,2001,22(2):123-128. 被引量：6
7李玲,任青,付园,陈鹤,梅圣民.基于Hadoop的社交网络服务推荐算法[J].吉林大学学报（信息科学版）,2013,31(4):359-364. 被引量：7
8李亮.全台网环境下的云视频素材转码系统的设计[J].电视技术,2013,37(10):67-69. 被引量：2
9金慧珍,赵辽英.大规模数据集的多层聚类算法[J].杭州电子科技大学学报（自然科学版）,2008,28(3):27-30. 被引量：1
10王红,张燕平,陈功平.云计算在手机短信分类中的应用研究[J].华中师范大学学报（自然科学版）,2013,47(5):626-631. 被引量：2

空军工程大学学报（自然科学版）

2017年第1期

浏览历史

内容加载中请稍等...

并行MapReduce模型下的一种改进型KNN分类算法被引量：2

参考文献3

二级参考文献32

共引文献79

同被引文献30

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

并行MapReduce模型下的一种改进型KNN分类算法 被引量：2

参考文献3

二级参考文献32

共引文献79

同被引文献30

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

并行MapReduce模型下的一种改进型KNN分类算法被引量：2