一种基于密度的改进KNN文本分类算法被引量：2

An Improved KNN Text Categorization Algorithm Based on Density

下载PDF

导出

摘要 KNN算法是一种应用广泛的人工智能算法,在文本分类应用中,简单有效,易于实现.但是,KNN分类的时间复杂度与训练样本数量成正比,而且,训练样本分布密度的不均匀性将导致分类准确性的下降.本文在KNN算法的基础上,提出一种改进算法.算法分析了训练样本的分布密度,通过裁减高密度区域训练样本,降低样本数量,调节训练样本分布,达到提高分类准确性的目的.实验证明,基于密度的改进KNN文本分类算法在降低时间复杂度的同时,还具有较好的准确率和召回率. The KNN algorithm is a widely used in artificial intelligence field. As a text categorization algorithm, it is simple,effectlve, and easy to implement. But the time complexity of KNN is directly proportional to the sample size. And the categorization accuracy will decrease in case of training samples uneven distribution. An improved KNN algorithm is proposed to improve the text categorization accuracy by adjusting training sample distribution. It analyzed and reduced the training samples in high distribution density areas. Experiments show that, the algorithm works with lower time complexity, also has better accuracy rate and r, ecall rate than common KNN in text classification.

作者茅剑刘晋明曹勇

机构地区集美大学计算机工程学院华为技术有限公司

出处《漳州师范学院学报（自然科学版）》 2012年第2期45-48,共4页 Journal of ZhangZhou Teachers College（Natural Science)

关键词 K近邻文本分类样本裁减 KNN Text Categorization Sample Reduction

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1李荣陆,胡运发.基于密度的kNN文本分类器训练样本裁剪方法[J].计算机研究与发展,2004,41(4):539-545. 被引量：98
2刘丽珍,宋瀚涛.文本分类中的特征选取[J].计算机工程,2004,30(4):14-15. 被引量：40
3代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：228
4李波,李新军.一种基于粗糙集和支持向量机的混合分类算法[J].计算机应用,2004,24(3):65-67. 被引量：9
5宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：40
6江涛,陈小莉,张玉芳,熊忠阳.基于聚类算法的KNN文本分类算法研究[J].计算机工程与应用,2009,45(7):153-155. 被引量：30
7鲁婷,王浩,姚宏亮.一种基于中心文档的KNN中文文本分类算法[J].计算机工程与应用,2011,47(2):127-130. 被引量：17
8高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量：36

二级参考文献58

1衣英楠,马军.数字文档管理系统的设计与实现[J].山东大学学报（理学版）,2005,40(2):62-66. 被引量：1
2周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：71
3袁方,苑俊英.基于类别核心词的朴素贝叶斯中文文本分类[J].山东大学学报（理学版）,2006,41(3):111-114. 被引量：12
4宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：40
5豆增发,王英强,王保保.一种基于信息增益的K-NN改进算法[J].电子科技,2006,19(12):52-56. 被引量：5
6袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
7张学工.统计学习理论的本质[M].北京：清华大学出版社,2001..
8黄昌宁等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
9Dasarathy B V.Nearest Neighbor(NN) norms:NN pattern classification techniques[M].LasAlamitos, California : IEEE Computer Society Press, 1991.
10[1]D D Lewis. Naive (Bayes) at forty: The independence assumption in information retrieval. In: The 10th European Conf on Machine Learning(ECML98), New York: Springer-Verlag, 1998. 4～15

共引文献468

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
2骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
3姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
4王新福.基于数据分析技术的人才成长规律研究[J].产业科技创新,2019(1):80-81.
5郑凌铭,舒胜文,陈彬,吴涵,黄建业,钱健.强台风环境下基于格点化和支持向量机的10 kV杆塔受损量预测方法[J].高电压技术,2020,46(1):42-51. 被引量：13
6张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
7周永健,郑玉明,廖湖声.基于模糊聚类的文本分类器[J].微电子学与计算机,2006,23(z1):137-140. 被引量：1
8张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
9刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
10贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1

同被引文献14

1余小鹏,周德翼.一种自适应k-最近邻算法的研究[J].计算机应用研究,2006,23(2):70-72. 被引量：16
2王增民,王开珏.基于熵权的K最临近算法改进[J].计算机工程与应用,2009,45(30):129-131. 被引量：18
3李秀娟.KNN分类算法研究[J].科技信息,2009(31):81-81. 被引量：11
4杨金福,宋敏,李明爱.一种新的基于距离加权的模板约简K近邻算法[J].电子与信息学报,2011,33(10):2378-2383. 被引量：12
5刘应东,孙秉珍.基于元胞自动机的小样本集分类算法[J].计算机工程,2012,38(7):155-157. 被引量：2
6肖辉辉,段艳明.基于属性值相关距离的KNN算法的改进研究[J].计算机科学,2013,40(11A):157-159. 被引量：28
7严晓明.基于类别平均距离的加权KNN分类算法[J].计算机系统应用,2014,23(2):128-132. 被引量：12
8孙可,龚永红,邓振云.一种高效的K值自适应的SA-KNN算法[J].计算机工程与科学,2015,37(10):1965-1970. 被引量：6
9路敦利,宁芊,臧军.基于BP神经网络决策的KNN改进算法[J].计算机应用,2017,37(A02):65-67. 被引量：19
10陈嘉伟,韩晶,郝瑞玲,胡迪.基于改进KNN算法的动态手势识别研究[J].中北大学学报（自然科学版）,2020,41(3):232-237. 被引量：8

引证文献2

1路敦利,宁芊,臧军.基于BP神经网络决策的KNN改进算法[J].计算机应用,2017,37(A02):65-67. 被引量：19
2黄嘉诚.融合一维元胞自动机的KNN分类算法[J].电大理工,2023(1):28-33.

二级引证文献19

1程琦,刘蓉霞,柯新利.基于神经网络的农地景观游憩功能评价及空间异质性研究[J].国土资源科技管理,2018,35(4):61-70. 被引量：1
2程麟焰,胡峰.基于模糊超网络的知识获取方法研究[J].智能系统学报,2019,14(3):479-490.
3王志华,刘绍廷,罗齐.基于改进K-modes聚类的KNN分类算法[J].计算机工程与设计,2019,40(8):2228-2234. 被引量：23
4孙傲,赵礼峰.基于信息增益和基尼不纯度的K近邻算法[J].计算机技术与发展,2019,29(9):51-54. 被引量：3
5范亚军,王萍,郁文贤,何迪.复杂环境下BDS场景精度等级聚类模型[J].导航定位学报,2019,7(4):64-69. 被引量：1
6张戈.课程推荐预测模型优化方案及数据离散化算法[J].计算机系统应用,2020,29(4):248-253.
7侯位昭,齐幸辉,宋凯磊,韩志卓,司佳,刘勇.基于FastText和WKNN融合模型的警情智能下发[J].现代电子技术,2020,43(13):73-80. 被引量：1
8李博,李霞,张晓,王艳秋,李恒,张勇,凌玉龙.MD-KNN算法在高校精准资助中的应用[J].计算机技术与发展,2020,30(7):91-95. 被引量：1
9徐国天.网络入侵检测中K近邻高速匹配算法研究[J].信息网络安全,2020(8):71-80. 被引量：2
10于浩.基于KNN和BP神经网络的物联网预测模型[J].山东农业大学学报（自然科学版）,2020,51(5):888-892. 被引量：3

1邱宁佳,郭畅,杨华民,王鹏,温暖.基于MapReduce编程模型的改进KNN分类算法研究[J].长春理工大学学报（自然科学版）,2017,40(1):110-114. 被引量：3
2杜琳娜,闫光辉,杨霞霞,刘利松.一种改进的KNN中文文本分类算法[J].软件导刊,2010,9(2):51-53. 被引量：2
3刘海峰,姚泽清,刘守生,苏展.基于聚类降维的改进KNN文本分类[J].微计算机信息,2010,26(3):18-20. 被引量：2
4路永和,何新宇.基于维度索引表的改进KNN分类算法[J].情报理论与实践,2014,37(5):102-106. 被引量：3
5古丽娜孜,孙铁利,胡西旦,伊力亚尔,库瓦特拜克.一种基于改进KNN的哈萨克语文本分类[J].东北师大学报（自然科学版）,2014,46(2):63-68. 被引量：4
6苟和平,景永霞,冯百明,李勇.一种基于粗糙集的改进KNN文本分类算法[J].科学技术与工程,2012,20(20):4926-4929. 被引量：3
7刘海峰,陈琦,刘守生,苏展.一种基于数据偏斜的改进KNN文本分类[J].微电子学与计算机,2010,27(3):51-53. 被引量：3
8孙丽华,张积东,李静梅.一种改进的kNN方法及其在文本分类中的应用[J].应用科技,2002,29(2):25-27. 被引量：36
9范恒亮,成卫青.一种基于关联分析的KNN文本分类方法[J].计算机技术与发展,2014,24(6):71-74. 被引量：4
10柴春梅,李翔,林祥.基于改进KNN算法实现网络媒体信息智能分类[J].计算机技术与发展,2009,19(1):1-4. 被引量：7

漳州师范学院学报（自然科学版）

2012年第2期

浏览历史

内容加载中请稍等...

一种基于密度的改进KNN文本分类算法被引量：2

参考文献8

二级参考文献58

共引文献468

同被引文献14

引证文献2

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

一种基于密度的改进KNN文本分类算法 被引量：2

参考文献8

二级参考文献58

共引文献468

同被引文献14

引证文献2

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

一种基于密度的改进KNN文本分类算法被引量：2