基于双层结构的加速K-NN分类方法被引量：3

Speeding K-NN classification method based on double-layer structure

下载PDF

导出

摘要在传统K-NN分类中,对于每个待测样本均需计算并寻找k个决策近邻,分类效率较低。针对该问题,提出一种双层结构的加速K-NN分类(K-NN classification based on double-layer structure,KNN_DL)方法。将正类和负类样本分别划分为多个不同子集,计算每个子集的中心和半径。当新样本进入时,选择k个决策近邻子集,若其具有相同的类别标签,将该样本标记为相应类别;反之,选择决策近邻子集中最近的k个决策近邻。这种双层结构的加速方式,压缩待测样本的决策近邻规模,提高效率。实验结果表明,KNN_DL方法能够获得较高的样本预测速度和较好的预测准确率。 For each sample to be tested of traditional K-NN classification,it is necessary to compute and select the k decision nearest neighbors,and the classification efficiency is low.To solve this problem,a speeding K-nearest neighbor(KNN)classification method based on double-layer structure(KNN_DL)was presented.The positive and negative samples were divided into a number of different subsets respectively,and the center and radius of all these subsets were computed.When a new sample was entered,the nearest k decision nearest neighbor subset was selected.If they had the same category label,the sample to be labeled was marked as the corresponding label.On the other hand,the k decision nearest neighbor of decision neighbor subset was selected.This double-layer speeding method compresses the size of the decision nearest neighbor set,and the learning efficiency is improved.Experimental results demonstrate that the KNN_DL model can obtain the high learning efficiency and testing accuracy simultaneously.

作者王晓赵丽 WANG Xiao;ZHAO Li(School of Information Technology and Engineering,Jinzhong University,Jinzhong 030619,China)

机构地区晋中学院信息技术与工程学院

出处《计算机工程与设计》北大核心 2018年第4期1071-1077,共7页 Computer Engineering and Design

关键词 K-NN分类决策近邻子集决策近邻样本中心半径 KNN_DL方法 K-NN classification decision nearest neighbor subset decision nearest neighbor sample center radius KNN_DL algorithm

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138. 被引量：714
2朱军,胡文波.贝叶斯机器学习前沿进展综述[J].计算机研究与发展,2015,52(1):16-26. 被引量：71
3刘义,景宁,陈荦,熊伟.MapReduce框架下基于R-树的k-近邻连接算法[J].软件学报,2013,24(8):1836-1851. 被引量：60
4罗倩.K-means聚类中心的鲁棒优化算法[J].计算机工程与设计,2015,36(9):2395-2400. 被引量：7

二级参考文献94

1Big data. Nature, 2008, 455(7209): 1-136.
2Dealing with data. Science,2011,331(6018): 639-806.
3Holland J. Emergence: From Chaos to Order. RedwoodCity,California: Addison-Wesley? 1997.
4Anthony J G Hey. The Fourth Paradigm: Data-intensiveScientific Discovery. Microsoft Research, 2009.
5Phan X H, Nguyen L M,Horiguchi S. Learning to classifyshort and sparse text Web with hidden topics from large-scale data collections//Proceedings of the 17th InternationalConference on World Wide Web. Beijing, China,2008:91-100.
6Sahami M, Heilman T D. A web-based kernel function formeasuring the similarity of short text snippets//Proceedingsof the 15th International Conference on World Wide Web.Edinburgh, Scotland, 2006: 377-386.
7Efron M, Organisciak P,Fenlon K. Improving retrieval ofshort texts through document expansion//Proceedings of the35th International ACM SIGIR Conference on Research andDevelopment in Information Retrieval. Portland, OR, USA,2012: 911-920.
8Hong L,Ahmed A, Gurumurthy S,Smola A J, Tsioutsiou-liklis K. Discovering geographical topics in the twitterstream//Proceedings of the 21st International Conference onWorld Wide Web(WWW 2012). Lyon, France, 2012:769-778.
9Pozdnoukhov A,Kaiser C. Space-time dynamics of topics instreaming text//Proceedings of the 3rd ACM SIGSPATIALInternational Workshop on Location-Based Social Networks.Chicago-IL,USA, 2011: 1-8.
10Sun Yizhou,Norick Brandon, Han Jiawei, Yan Xifeng, YuPhilip S,Yu Xiao. Integrating meta-path selection with user-guided object clustering in heterogeneous information net-works/ /Proceedings of the 18th ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining.Beijing, China, 2012: 1348-1356.

共引文献847

1刘欣,陈占强.基于机器学习的钢铁现货价格模型[J].冶金自动化,2020(S01):214-217.
2张丛铄.基于大数据的研究生心理危机预警机制的构建[J].中国新通信,2020,0(2):80-81. 被引量：2
3李宗福,李阳,李昂,陈康.基于Hadoop与机器学习的舆情分析与应用[J].计算机应用研究,2020,37(S01):43-46. 被引量：1
4李玥.机器学习的分类、聚类研究[J].电脑知识与技术,2020,0(4):161-162. 被引量：5
5吴嘉琪.一种基于ELK框架的地理信息动态时空数据获取与挖掘方法[J].测绘通报,2020(1):45-49. 被引量：2
6谢月锋,董现垒,陈卉,王燕,刘志成.利用网络痕迹信息即时预测儿童腹泻流行趋势[J].医学信息（医学与计算机应用）,2016,29(29):1-4.
7韩益亮,卢万谊,武光明,杨晓元.适用于网络大数据的属性基广义签密方案[J].计算机研究与发展,2013,50(S2):23-29. 被引量：2
8邓波,张玉超,金松昌,林旺群.基于MapReduce并行架构的大数据社会网络社团挖掘方法[J].计算机研究与发展,2013,50(S2):187-195. 被引量：10
9梁俊杰,熊亚军.以固态硬盘为缓存的存储技术研究[J].微电子学与计算机,2015,32(1):40-44. 被引量：2
10嵇梅.中国保健食品,明天还有“戏”吗?[J].新疆人大,2000(4):35-37.

同被引文献26

1赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
2张恒,屈景辉,张亮.网页文本信息提取及结果评价[J].微计算机应用,2007,28(9):921-924. 被引量：10
3任仲晟,薛永生.基于页面标签的Web结构化数据抽取[J].计算机科学,2007,34(10):133-136. 被引量：8
4汪建伟,杨冬青,高军,王腾蛟.一种基于分类算法的网页信息提取方法[J].计算机科学,2008,35(3):91-93. 被引量：11
5罗永莲,罗永秀,张永奎.突发事件新闻网页的去重方法研究[J].计算机应用与软件,2008,25(8):24-26. 被引量：4
6张裕钦,李振坤,吴永杰.基于规则模型的网页主题文本提取方法[J].计算机工程与设计,2009,30(20):4665-4667. 被引量：3
7李敏,王勇,蔡立军.数据流分类中的增量特征选择算法[J].计算机应用,2010,30(9):2321-2323. 被引量：5
8李钟,赵银亮,杜延宁.Prophet推测多线程系统设计与实现[J].计算机科学,2011,38(2):296-301. 被引量：2
9李远成,赵银亮,李美蓉,杜延宁.一种基于路径优化的推测多线程划分算法[J].软件学报,2012,23(8):1950-1964. 被引量：1
10刘俊,邹东升,邢欣来,李英豪.基于主题特征的关键词抽取[J].计算机应用研究,2012,29(11):4224-4227. 被引量：30

引证文献3

1盛红雷,贾崟.基于人工神经网络的线程数据加速划分[J].舰船电子工程,2019,39(1):85-89.
2王晓,罗永莲.基于决策树与单元距离抽取新闻网页内容[J].晋中学院学报,2019,36(3):66-71.
3杨鸣坤,罗锦光,欧跃发,慕德俊.基于API和Permission的Android恶意软件静态检测方法研究[J].计算机应用与软件,2020,37(4):53-58. 被引量：3

二级引证文献3

1张皓.基于深度学习的恶意软件动态检测方法研究[J].电子技术与软件工程,2022(3):43-46. 被引量：1
2陈岑,李暖暖,蔡军飞,郭志民,吕卓.基于动态行为特征加权聚类的加壳恶意软件未知变种检测方法[J].重庆大学学报,2023,46(3):129-136. 被引量：2
3高龙良,杜素果,杨金萍.基于动态特征选择的Android应用隐私风险自动化检测[J].计算机应用与软件,2024,41(6):312-319.

1王晓,赵丽.基于待测样本标记的加速K-NN分类方法[J].计算机与现代化,2017(9):102-105. 被引量：1
2Jagannath E.Nalavade,T.Senthil Murugan.THRFuzzy:Tangential holoentropy-enabled rough fuzzy classifier to classification of evolving data streams[J].Journal of Central South University,2017,24(8):1789-1800. 被引量：1
3胡霖.基于大数据分析的人力流动区域估计模型仿真[J].现代电子技术,2017,40(24):74-76.
4乔亚琴,马盈仓,陈红,杨小飞.构造样本k近邻数据的多标签分类算法[J].计算机工程与应用,2018,54(6):135-142. 被引量：7
5Siwen Cui,Youbin Zheng,Jun Liang,Daoai Wang.Triboelectrification based on double-layered polyaniline nanofibers for self-powered cathodic protection driven by wind[J].Nano Research,2018,11(4):1873-1882. 被引量：8
6刘经东.开发区建设与企业出口行为——兼议中国开发区建设的转型升级[J].世界经济与政治论坛,2018,0(2):45-67. 被引量：9
7陈鑫,王素格,李德玉,谭红叶,陈千,王元龙.面向高考阅读理解鉴赏题语言风格判别方法[J].中文信息学报,2017,31(6):214-222.
8黄成龙,徐琪.品牌与渠道双重竞争下制造商渠道优化选择决策[J].中国管理科学,2016,24(S1):634-643. 被引量：3
9杨嘉树,梅天灿,仲思东.顾及局部特性的CNN在遥感影像分类的应用[J].计算机工程与应用,2018,54(7):188-195. 被引量：11
10储岳中,刘恒,张学锋.基于迁移AP聚类与稀疏表示的遥感图像分类[J].计算机工程与设计,2018,39(2):547-550. 被引量：1

计算机工程与设计

2018年第4期

浏览历史

内容加载中请稍等...

基于双层结构的加速K-NN分类方法被引量：3

参考文献4

二级参考文献94

共引文献847

同被引文献26

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于双层结构的加速K-NN分类方法 被引量：3

参考文献4

二级参考文献94

共引文献847

同被引文献26

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于双层结构的加速K-NN分类方法被引量：3