基于密度的kNN分类器训练样本裁剪方法的改进被引量：13

Improvement of density-based method for reducing training data in KNN text classification

下载PDF

导出

摘要在文本分类中,训练集的分布状态会直接影响k-近邻(kNN)分类器的效率和准确率。通过分析基于密度的kNN文本分类器训练样本的裁剪方法,发现它存在两大不足:一是裁剪之后的均匀状态只是以ε为半径的球形区域意义上的均匀状态,而非最理想的均匀状态即两两样本之间的距离相等;二是未对低密度区域的样本做任何处理,裁剪之后仍存在大量不均匀的区域。针对这两处不足,提出了以下两点改进:一是优化了裁剪策略,使裁剪之后的训练集更趋于理想的均匀状态;二是实现了对低密度区域样本的补充。通过实验对比,改进后的方法在稳定性和准确率方面都有明显提高。 The density of training data directly influences the efficiency and precision of k-Nearest Neighbor（kNN）text classifier.Two disadvantages had been uncovered by the analysis of density-based method while reducing the amount of training data in kNN text classification.One is that after being reduced,the even density of the training data is just based on the spherical region which has a radius of ε,rather than the equal distance of every training text.The other is that there is no treatment of the low-density training texts while plenty of low-density texts still exist in the training data after being reduced.An improved approach to the mentioned deficiencies was proposed：the reduction strategy was optimized to make the training data yield evenly and the appropriate data were supplemented into the low-density texts.It is shown that the improved method has a distinctly better performance on both algorithm stability and accuracy.

作者熊忠阳杨营辉张玉芳

机构地区重庆大学计算机学院

出处《计算机应用》 CSCD 北大核心 2010年第3期799-801,817,共4页 journal of Computer Applications

基金中国博士后科学基金资助项目(20070420711) 重庆市科委自然科学基金资助项目(2007BB2372)

关键词文本分类 K-近邻快速分类样本裁剪样本补充 text classification k-Nearest Neighbor（kNN） fast classification sample reduction sample supplement

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：99
2李杨,曾海泉,刘庆华,胡运发.基于kNN的快速WEB文档分类[J].小型微型计算机系统,2004,25(4):725-729. 被引量：13
3王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
4RUIZ V E.An algorithm for finding nearest neighbors in (approximately) constant average time[J].Pattern Recognition Letter,1986,4(3):145-147.
5HART P E.The condensed nearest neighbor rule[J].IEEE Transactions on Information Theory,1968,IT214(3):515-516.
6WILSON D L.Asymptotic properties of nearest neighbor rules using edited data[J].IEEE Transactions on Systems,Man and Cybernetics,1972,2(3):408-421.
7DEVIJVER P,KITTLER J.Pattern recognition:A statistical approach[M].Englewood Cliffs:Prentice Hall,1982.
8KUNCHEVA L I.Fitness functions in editing KNN reference set by genetic algorithms[J].Pattern Recognition,1997,30(6):1041-1049.
9李荣陆,胡运发.基于密度的kNN文本分类器训练样本裁剪方法[J].计算机研究与发展,2004,41(4):539-545. 被引量：98
10FAGN YUAN,LIU YANG.A new density-based method for reducing the amount of training data in k-NN text classification[C]// Proceedings of the 6th International Conference on Machine Learning and Cybernetics.Hong Kong:[s.n.],2007:3372-3376.

二级参考文献40

1王煜,王正欧.基于模糊决策树的文本分类规则抽取[J].计算机应用,2005,25(7):1634-1637. 被引量：13
2[1]Yang Y and Liu X. A re-examination of text categorization methods[C]. In: Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 1999, 42～49.
3[2]Dasarathy B V. Neatest neighbor(NN) norms: NN pattern classification techniques[C]. Los Alamitos, CA:IEEE Computer Society Press, 1991.
4[3]Harrt P E. The condensed nearest neighbor rule[J]. IEEE Trans. Information Theory ,May 1968,IT-14(3):515～516.
5[4]Dasarathy Y, Minimal B V. Consistent set (MCS) identification for optimal nearest neighbor decision system terms design[J]. IEEE Trans. Syst. Man Cybern. ,March 1994,24(3):511～517.
6[5]Kuncheva L I. Fitness functions in editing K-NN reference set by genetic algorithms[J]. Pattern Rcognition,1997,30(6):1041～1049.
7[6]Zhong Hong-bin, Sun Guang-yu. Optimal selection of & Technology, May 2001,16(2): 126～136.reference set for the nearest neighbor classification by Tabu search[J]. Journal of Computer Science
8[7]Masand B, Linoff G and Waltz D. Classifying news stories using memory-based reasoning[C]. In: International ACM SIGIR Conference on Research and Development in Information Retrieval, 1992, 59～65.
9[8]Yang Y. Expert network: effective and efficient learning from human decisions in text categorization and retrieval[C]. In:Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'94) 1994:11～21.
10[9]Iwayama M and Tokunaga T. Cluster-based text categorization: a comparison of category search strategies[C]. In: Proceedings of the 18th Ann Int ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'95), 1995, 273～281.

共引文献229

1姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
2郑凌铭,舒胜文,陈彬,吴涵,黄建业,钱健.强台风环境下基于格点化和支持向量机的10 kV杆塔受损量预测方法[J].高电压技术,2020,46(1):42-51. 被引量：15
3刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
4常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.
5李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：96
6任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
7唐明,张自力.文本挖掘在多文化交流平台中的应用研究[J].西南师范大学学报（自然科学版）,2006,31(3):110-113. 被引量：2
8华北,曹先彬.基于代表样本动态生成的中文网页分类[J].计算机应用,2006,26(10):2502-2504. 被引量：2
9李订芳,胡文超,何炎祥.基于共享最近邻聚类和模糊集理论的分类器[J].控制与决策,2006,21(10):1103-1108. 被引量：5
10杨洁,张建忠,申庆永,何云.基于Milter实现的中文垃圾邮件过滤系统[J].计算机工程,2007,33(1):267-270.

同被引文献84

1王晓晔,王正欧.K-最近邻分类技术的改进算法[J].电子与信息学报,2005,27(3):487-491. 被引量：25
2钱晓东,王正欧.基于改进KNN的文本分类方法[J].情报科学,2005,23(4):550-554. 被引量：19
3张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：99
4乔玉龙,潘正祥,孙圣和.一种改进的快速k-近邻分类算法[J].电子学报,2005,33(6):1146-1149. 被引量：25
5罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量：55
6余小鹏,周德翼.一种自适应k-最近邻算法的研究[J].计算机应用研究,2006,23(2):70-72. 被引量：16
7张国英,沙芸,江慧娜.基于粒子群优化的快速KNN分类算法[J].山东大学学报（理学版）,2006,41(3):120-123. 被引量：8
8彭欢,陆国栋,谭建荣.基于端点与交点编码的矩形窗口多边形裁剪新算法[J].工程图学学报,2006,27(4):72-76. 被引量：7
9张海龙,王莲芝.自动文本分类特征选择方法研究[J].计算机工程与设计,2006,27(20):3840-3841. 被引量：45
10高茂庭,王正欧.几种文本特征降维方法的比较分析[J].计算机工程与应用,2006,42(30):157-159. 被引量：16

引证文献13

1冷明伟,陈晓云,谭国律.基于小样本集弱学习规则的KNN分类算法[J].计算机应用研究,2011,28(3):915-917. 被引量：8
2刘应东,牛惠民.基于K-均值聚类的小样本集KNN分类算法[J].计算机应用与软件,2011,28(5):112-113. 被引量：10
3刘应东,牛惠民.基于k-最近邻图的小样本KNN分类算法[J].计算机工程,2011,37(9):198-200. 被引量：27
4高阳,田生伟,吐尔根.依不拉音.非平衡语料下改进的SVM-KNN算法[J].新疆大学学报（自然科学版）,2012,29(1):100-103. 被引量：1
5胡元,石冰.基于区域划分的kNN文本快速分类算法研究[J].计算机科学,2012,39(10):182-186. 被引量：23
6李竹林,雷岗.一种改进的Sutherland-Cohen裁剪算法[J].计算机工程与应用,2012,48(34):175-178. 被引量：5
7彭凯,汪伟,杨煜普.基于余弦距离度量学习的伪K近邻文本分类算法[J].计算机工程与设计,2013,34(6):2200-2203. 被引量：19
8刘仲民,徐炎,赵彦敏,胡文瑾.基于概率模型LVQ的改进KNN分类新方法[J].兰州理工大学学报,2013,39(3):70-74. 被引量：1
9杨帆,郭建华,谭海,王竞雪.灰度直方图与K-最近邻的影像分割算法[J].测绘科学,2017,42(3):7-11. 被引量：1
10李竹林.Cohen-Sutherland直线剪裁算法改进[J].计算机技术与发展,2017,27(6):32-35. 被引量：2

二级引证文献107

1周靖,刘晋胜.基于分类贡献有效值的增量KNN模型修剪研究[J].计算机工程与应用,2012,48(3):185-188. 被引量：1
2刘应东,孙秉珍.基于元胞自动机的小样本集分类算法[J].计算机工程,2012,38(7):155-157. 被引量：2
3吴静.KNN算法在就业预测模型中的应用[J].莆田学院学报,2013,20(2):60-63. 被引量：2
4景永霞,苟和平,冯百明,李勇.不均衡数据集中KNN分类器样本裁剪算法[J].科学技术与工程,2013,21(16):4720-4723. 被引量：2
5林啟锋,蒙祖强,陈秋莲,陈智敏.结合语义和文本特征位串的高效KNN算法[J].计算机工程与设计,2013,34(7):2417-2421. 被引量：1
6谭学群,廉培庆,邱茂君,李艳华,董广为.基于岩石类型约束的碳酸盐岩油藏地质建模方法——以扎格罗斯盆地碳酸盐岩油藏A为例[J].石油与天然气地质,2013,34(4):558-563. 被引量：21
7丁雪洁,解恺,刘维,刘纪元,江泽林.利用新特征空间的SAS图像目标分类算法[J].计算机工程与应用,2013,49(21):138-140. 被引量：1
8钱强,庞林斌,高尚.一种基于改进型KNN算法的文本分类方法[J].江苏科技大学学报（自然科学版）,2013,27(4):381-385. 被引量：3
9马立婷,陶秋香,张庆云.三种遥感反演海岸线方法的实验对比分析[J].海洋测绘,2013,33(6):66-69. 被引量：1
10刘璐,高强,刘衍珩,孙鑫.基于冗余实例对消除算法的实例选择[J].计算机工程,2014,40(1):177-180. 被引量：2

1苟和平,景永霞,冯百明,李勇.基于密度的KNN分类器样本裁剪算法[J].佳木斯大学学报（自然科学版）,2013,31(2):242-244. 被引量：2
2景永霞,苟和平,冯百明,李勇.不均衡数据集中KNN分类器样本裁剪算法[J].科学技术与工程,2013,21(16):4720-4723. 被引量：2
3罗贤锋,祝胜林,陈泽健,袁玉强.基于K-Medoids聚类的改进KNN文本分类算法[J].计算机工程与设计,2014,35(11):3864-3867. 被引量：25
4苟和平,景永霞,冯百明,李勇.基于DBSCAN聚类的改进KNN文本分类算法[J].科学技术与工程,2013,21(1):219-222. 被引量：5
5刘绍毓,周杰,李弼程,席耀一,唐浩浩.基于多分类SVM-KNN的实体关系抽取方法[J].数据采集与处理,2015,30(1):202-210. 被引量：21
6陈晓燕,庞涛,卢宇翔.嵌入式TCP/IP协议数据传输监控系统的设计[J].测控技术,2012,31(2):81-83. 被引量：14
7杨学红.联通PaaS项目质量管理[J].信息通信技术,2015,9(3):49-52. 被引量：1
8侯国兴.旋转的妙用[J].中学生数理化（八年级数学）（华师大版）,2009(11):17-18.
9邹汪平.一种基于正六边形分簇的WSN拓扑控制研究[J].长春师范学院学报（自然科学版）,2013,32(4):21-23.
10杨浩,林喜军,曲海鹏.分布式网络下改进的Top-k查询算法[J].计算机工程,2017,34(2):79-84. 被引量：1

计算机应用

2010年第3期

浏览历史

内容加载中请稍等...

基于密度的kNN分类器训练样本裁剪方法的改进被引量：13

参考文献11

二级参考文献40

共引文献229

同被引文献84

引证文献13

二级引证文献107

相关作者

相关机构

相关主题

浏览历史

基于密度的kNN分类器训练样本裁剪方法的改进 被引量：13

参考文献11

二级参考文献40

共引文献229

同被引文献84

引证文献13

二级引证文献107

相关作者

相关机构

相关主题

浏览历史

基于密度的kNN分类器训练样本裁剪方法的改进被引量：13