基于待测样本标记的加速K-NN分类方法被引量：1

Speeding K-NN Classification Method Based on Testing Sample Label

下载PDF

导出

摘要针对传统K-NN分类方法预测效率低的问题,提出一种基于待测样本标记的加速K-NN分类(Speeding K-NN Classification Based on Testing Sample Label,KNN_TSL)方法。该方法首先采用传统K-NN分类方法得到一定数量的待测样本类别;然后对于再进入的待测样本,计算其与已标记类别待测样本的距离,如果该距离小于给定的阈值,则将该新进入的样本赋予相同的类别标签,反之则重新分类。这种方法对于后续进入的易分类待测样本,只需要计算其与少数比原始标记样本更有代表性的已标记待测样本的距离即可进行类别决策,而只有少数的待测样本需要重新分类。由于已标记待测样本包含了部分类别信息,因此采用这种方法可以在大大提高分类预测效率的同时保证模型的泛化性能。实验结果表明,本文提出的KNN_TSL方法能够获得较高的样本预测速度和较好的预测准确率。 To solve the problem of the low prediction efficiency of traditional K-NN classification,this paper presents a speeding K-Nearest Neighbor（ K-NN） classification method based on testing sample label（ KNN_TSL）. Firstly,a certain number of testing samples is obtained by traditional K-NN classification method. Then for the samples to be entered latterly,the distance between the labeled samples and the testing sample is calculated. If the distance is less than a given threshold,the new entry sample is assigned the same class label. Otherwise,the K-NN classification is performed. By this method,most last easily classified samples can be decided only by considering the relationship of it with the labeled testing samples,and only a small number of samples is reclassified. Because the labeled samples contain some information of class,this method can greatly improve the classification prediction efficiency and ensure the generalization performance. The experiment result demonstrates that the proposed KNN_TSL model can obtain the high learning efficiency and testing accuracy simultaneously.

作者王晓赵丽

机构地区晋中学院信息技术与工程学院

出处《计算机与现代化》 2017年第9期102-105,共4页 Computer and Modernization

关键词 K-NN分类待测样本标记 KNN_TSL方法 K-NN classification testing sample label KNN_TSL algorithm

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1朱军,胡文波.贝叶斯机器学习前沿进展综述[J].计算机研究与发展,2015,52(1):16-26. 被引量：71
2刘义,景宁,陈荦,熊伟.MapReduce框架下基于R-树的k-近邻连接算法[J].软件学报,2013,24(8):1836-1851. 被引量：60

二级参考文献11

1Bohm C, Krebs F. The k-nearest neighbor join: Turbo charging the KDD process. Knowledge Information System, 2004,6(6): 728-749. [doi: 10.1007/s10115-003-0122-9].
2Xia CY, Lu HJ, Coi BC, Hu J. Gorder: An efficient method for KDD joins processing. In: Proc. of the 30th Int'l Conf. on Very Large Data Bases (VLDB). 2004. 756-767.
3Yao B, Li FF, Kumar P. K nearest neighbor queries and KNN-joins in large relational databases (almost) for free. In: Proc. of the 26th Int'l Conf. on Data Engineering (ICDE). 2010.4-15. [doi: 10.1109/ICDE.2010.5447837].
4Yu C, Cui B, Wang SG, Su JW. Efficient index-based KNN join processing for high-dimensional data. Information and Software Technology, 2007,49(4):332-344. [doi: 10.1016/j.infsof.2006.05.006].
5Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters. Communications of the ACM, 2008,51(1):107-113 [doi: 10.1145/1327452.1327492].
6White T. Hadoop: The Definitive Guide. Sebastopol: Yahoo! Press, 2009.
7Zhang C, Li FF, Jestes J. Efficient parallel kNN joins for large data in MapReduce. In: Proc. of the 15th Int'l Conf. on Extending Database Technology (EDBT). 2012.38-49. [doi: 10.1145/2247596.2247602].
8Lu W, Shen YY, Chen S, Col BC. Efficient processing of k nearest neighbor joins using MapReduce. In: Proc. of the 38th lnt'l Conf. on Very Large Data Bases (VLDB). 2012. 1016-1027.
9Liu Y, Jing N, Chen L, Chen HZ. Parallel bulk-loading of spatial data with MapReduce: An R4ree case. Wuhan University Journal of Natural Sciences, 2011,16(6):513-519. [doi: 10.1007/s11859-011-0790-3].
10Tao YF, Papadias D. Range aggregate processing in spatial databases. IEEE Trans. on Knowledge and Data Engineering, 2004, 16(12):1555-1570. [doi: 10.1109/TKDE.2004.93].

共引文献128

1刘欣,陈占强.基于机器学习的钢铁现货价格模型[J].冶金自动化,2020(S01):214-217.
2李宗福,李阳,李昂,陈康.基于Hadoop与机器学习的舆情分析与应用[J].计算机应用研究,2020,37(S01):43-46. 被引量：1
3李玥.机器学习的分类、聚类研究[J].电脑知识与技术,2020,0(4):161-162. 被引量：5
4刘琼,赵荣,孙立坚.Map/Reduce框架下的粗糙集空间数据挖掘改进算法[J].测绘科学,2014,39(5):49-53. 被引量：3
5代亮,许宏科,陈婷,钱超,梁殿鹏.基于MapReduce的多元线性回归预测模型[J].计算机应用,2014,34(7):1862-1866. 被引量：17
6李牧南,王流云.三维打印技术的潜在风险识别:跨学科主题词挖掘视角[J].科研管理,2019,40(1):89-104. 被引量：6
7陈晓康,刘竹松.基于改进Kd-Tree构建算法的k近邻查询[J].广东工业大学学报,2014,31(3):119-123. 被引量：8
8李玉丹,郑晓薇.Hadoop下多模式并行分类算法及其应用研究[J].计算机工程,2014,40(12):45-49. 被引量：2
9金菁.基于MapReduce模型的排序算法优化研究[J].计算机科学,2014,41(12):155-159. 被引量：6
10李贵兵,金炜东,蒋鹏,付小利,熊定鸿,谷鹏举.面向大规模监测数据的高铁故障诊断技术研究[J].系统仿真学报,2014,26(10):2458-2464. 被引量：10

同被引文献11

1赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
2张恒,屈景辉,张亮.网页文本信息提取及结果评价[J].微计算机应用,2007,28(9):921-924. 被引量：10
3任仲晟,薛永生.基于页面标签的Web结构化数据抽取[J].计算机科学,2007,34(10):133-136. 被引量：8
4汪建伟,杨冬青,高军,王腾蛟.一种基于分类算法的网页信息提取方法[J].计算机科学,2008,35(3):91-93. 被引量：11
5罗永莲,罗永秀,张永奎.突发事件新闻网页的去重方法研究[J].计算机应用与软件,2008,25(8):24-26. 被引量：4
6张裕钦,李振坤,吴永杰.基于规则模型的网页主题文本提取方法[J].计算机工程与设计,2009,30(20):4665-4667. 被引量：3
7李敏,王勇,蔡立军.数据流分类中的增量特征选择算法[J].计算机应用,2010,30(9):2321-2323. 被引量：5
8刘俊,邹东升,邢欣来,李英豪.基于主题特征的关键词抽取[J].计算机应用研究,2012,29(11):4224-4227. 被引量：30
9郭建兵,崔志明,陈明,赵朋朋.一种基于范围型属性的Deep Web数据提取方法[J].计算机应用与软件,2013,30(2):54-57. 被引量：2
10王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138. 被引量：714

引证文献1

1王晓,罗永莲.基于决策树与单元距离抽取新闻网页内容[J].晋中学院学报,2019,36(3):66-71.

1Hao Zhangcheng.What Is the Next Step of Tire Label？[J].中国橡胶,2017,33(16):2-4.
2Jiangtao Geng,Zengyi Kuang,Zhimou Yu.Research on Speeding up the Internationalization of Private Higher Vocational Education[J].International Journal of Technology Management,2017(4):7-9. 被引量：2
3王健,闫菲,孙瑞,刘晓婷,刘志鹏.相似性度量对KNN蓝牙定位的影响研究[J].信息记录材料,2017,18(11):3-4. 被引量：3
4Wei Yifang Guo Li Wang Yujie Wang Cuiping.A BLIND AUDIO STEGANALYSIS BASED ON FEATURE FUSION[J].Journal of Electronics(China),2011,28(3):265-276. 被引量：1
5GUI Jian-bao,ZOU Jing,RONG Jun-yan,HU Zhan-li,ZHANG Qi-yang,ZHENG Hai-rong,XIA Dan.Phase-contrast Imaging Simulation Based on a Micro-CT System[J].Chinese Journal of Biomedical Engineering(English Edition),2016,25(2):87-92.
6周斯涵,刘月兰.基于数据挖掘与机器学习的蛋白质疏水性分析的研究[J].哈尔滨师范大学自然科学学报,2017,33(3):34-38. 被引量：3
7ZHANG Tianjie,DUAN Haibin.A modified consensus algorithm for multi-UAV formations based on pigeon-inspired optimization with a slow diving strategy[J].智能系统学报,2017,12(4):570-581.
8葛永波,曹婷婷,陈磊.农商行小微贷款风险评估及其预警——基于经济新常态背景的研究[J].农业技术经济,2017(9):105-115. 被引量：12
9夏玉剑,李敏,陈果,石同春,沈大千,王昕.基于振动分析法的变压器故障分类和识别[J].电测与仪表,2017,54(17):7-10. 被引量：11
10傅玮东,李兰,顾雅文.库车日平均气温≥3℃初日与杏树开花期的关系[J].沙漠与绿洲气象,2017,11(4):86-89. 被引量：15

计算机与现代化

2017年第9期

浏览历史

内容加载中请稍等...

基于待测样本标记的加速K-NN分类方法被引量：1

参考文献2

二级参考文献11

共引文献128

同被引文献11

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于待测样本标记的加速K-NN分类方法 被引量：1

参考文献2

二级参考文献11

共引文献128

同被引文献11

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于待测样本标记的加速K-NN分类方法被引量：1