基于中心抽样的KNN算法在文本分类中的应用被引量：2

The Application of KNN Algorithm Based on Central Sampling in Text Categorization

下载PDF

导出

摘要文本分类是文本数据挖掘中的一个重要的内容,现阶段文本分类用到的主要算法有KNN,贝叶斯,神经网络等。KNN算法因为原理简单,分类效果较好,在文本分类中得到应用,但在数据量大时其运行效率上存在一定的局限性,本文提出一种基于中心抽样的KNN算法,并用20newsgroup数据集对其进行验证,在不影响准确率的情况下,提高了运行效率,取得了不错的效果。 Text classification is an important part of text data mining.At this stage,the main algorithms used in text categorization include KNN,Bayesian,neural networks.KNN algorithm for its simple ideas,with good efficiency,has an important application in text classification.But the KNN algorithm has certain limitation in the operation efficiency,especially dealing with a large amount of data.In this paper,a KNN algorithm based on central sampling is proposed,which is verified by 20newsgroup data set.It can improve the operation efficiency without affecting the accuracy,and has achieved good results.

作者肖绍武王子牛高建瓴 XIAO Shaowu;WANG Ziniu;GAO Jianling(College of Big Data and Communication Engineering,Guizhou University,Guiyang 550025,China;Network and Information Management Center,Guizhou University,Guiyang 550025,China)

机构地区贵州大学大数据与信息工程学院贵州大学信息与网络管理中心

出处《贵州大学学报（自然科学版）》 2018年第1期78-81,共4页 Journal of Guizhou University:Natural Sciences

基金贵州省科学技术基金项目资助(黔科合J字[2015]2045) 贵州省档案局科研项目资助(2015D001) 贵州大学研究生创新基金项目资助(研理工2017016)

关键词 KNN 文本分类中心抽样 20newsgroup KNN text classification central sampling 20newsgroup

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1张著英,黄玉龙,王翰虎.一个高效的KNN分类算法[J].计算机科学,2008,35(3):170-172. 被引量：55
2张磊,刘建伟,罗雄麟.基于KNN和RVM的分类方法——KNN-RVM分类器[J].模式识别与人工智能,2010,23(3):376-384. 被引量：18
3豆增发,王英强,王保保.一种基于信息增益的K-NN改进算法[J].电子科技,2006,19(12):52-56. 被引量：5
4陈振洲,李磊,姚正安.基于SVM的特征加权KNN算法[J].中山大学学报（自然科学版）,2005,44(1):17-20. 被引量：51
5杜磊,杜星,宋擒豹.一种k-NN分类器k值自动选取方法[J].控制与决策,2013,28(7):1073-1077. 被引量：8
6李洪奇,杨中国,朱丽萍,刘蔷.基于数据集特征的KNN最优K值预测方法[J].计算机应用与软件,2016,33(6):54-58. 被引量：14
7樊存佳,汪友生,边航.一种改进的KNN文本分类算法[J].国外电子测量技术,2015,34(12):39-43. 被引量：25
8周靖,刘晋胜.特征联合熵的一种改进K近邻分类算法[J].计算机应用,2011,31(7):1785-1788. 被引量：8
9罗贤锋,祝胜林,陈泽健,袁玉强.基于K-Medoids聚类的改进KNN文本分类算法[J].计算机工程与设计,2014,35(11):3864-3867. 被引量：25
10周庆平,谭长庚,王宏君,湛淼湘.基于聚类改进的KNN文本分类算法[J].计算机应用研究,2016,33(11):3374-3377. 被引量：68

二级参考文献124

1钱晓东,王正欧.基于改进KNN的文本分类方法[J].情报科学,2005,23(4):550-554. 被引量：19
2胡学钢,郭亚光.一种基于粗糙集的朴素贝叶斯分类算法[J].合肥工业大学学报（自然科学版）,2006,29(2):169-172. 被引量：11
3周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：72
4张冬玲.基于粗糙集理论的属性约简算法的实现[J].计算机应用,2006,26(B06):78-79. 被引量：11
5董乐红,耿国华,周明全.基于Boosting算法的文本自动分类器设计[J].计算机应用,2007,27(2):384-386. 被引量：13
6王煜,王正欧,白石.用于文本分类的改进KNN算法[J].中文信息学报,2007,21(3):76-82. 被引量：15
7Nello C,John S T.An Introduction to Support Vector Machines and Other Kernel-Based Learning Methods.Cambridge,UK:Cambridge University Press,2000.
8Vapnik V N.The Nature of Statistical Learning.New York,USA:Springer-Verlag,1995.
9Vapnik V N.An Overview of Statistical Learning Theory.IEEETrans on Neural Networks,1999,10(5):988 -999.
10Jain A K,Duin R P W,Mao Jianchang.Statistical Pattern Recognition:A Review.Pattern Analysis and Machine Intelligence,2000:22(1):4-37.

共引文献251

1熊漩,严佩敏.融合多头自注意力机制的中文分类方法[J].电子测量技术,2020(10):125-130. 被引量：7
2刘锋,白凡.一种改进的K近邻算法在网页分类中的应用[J].电子技术（上海）,2010(7):30-31. 被引量：1
3宋臻,骆潇.李银河:三十岁找到了我的所爱[J].职业,2005(9):7-8.
4杨丽华,戴齐,郭艳军.KNN文本分类算法研究[J].微计算机信息,2006,22(07X):269-270. 被引量：24
5白小明,邱桃荣.基于SVM和KNN算法的科技文献自动分类研究[J].微计算机信息,2006(12X):275-276. 被引量：10
6孙岩,吕世聘,王秀坤,唐一源.基于结构学习的KNN分类算法[J].计算机科学,2007,34(12):184-186. 被引量：22
7金自翔,戴新宇,陈家骏.一种基于贪婪算法的KNN参数选择策略[J].广西师范大学学报（自然科学版）,2008,26(1):182-185. 被引量：1
8桑应宾,刘琼荪.一种基于特征加权的K Nearest Neighbor算法[J].海南大学学报（自然科学版）,2008,26(4):352-355. 被引量：6
9江涛,陈小莉,张玉芳,熊忠阳.基于聚类算法的KNN文本分类算法研究[J].计算机工程与应用,2009,45(7):153-155. 被引量：30
10张建明,杨忠,李巍.改进KNN-SVM的性别识别[J].计算机工程与应用,2009,45(4):177-179. 被引量：7

同被引文献9

1张玉芳,万斌候,熊忠阳.文本分类中的特征降维方法研究[J].计算机应用研究,2012,29(7):2541-2543. 被引量：36
2程勖,李文辉,刘裕斌.基于模拟谐振子算法的服务调度技术[J].大连海事大学学报,2013,39(2):78-81. 被引量：4
3程勖,李文辉,张明会.基于路径优化的服务调度方法[J].北京工业大学学报,2015,41(10):1537-1542. 被引量：1
4李斌,张博,刘学军,章玮.基于Jaccard相似度和位置行为的协同过滤推荐算法[J].计算机科学,2016,43(12):200-205. 被引量：20
5王艳飞,郝卫杰,范支菊,张三顺,张公敬.基于聚类和密度裁剪的改进KNN算法[J].青岛大学学报（自然科学版）,2017,30(2):62-68. 被引量：6
6李桃迎,李墨,李鹏辉.基于加权Slope One的协同过滤个性化推荐算法[J].计算机应用研究,2017,34(8):2264-2268. 被引量：23
7张初兵,李东进,吴波,李义娜.购物网站氛围线索与感知互动性的关系[J].管理评论,2017,29(8):91-100. 被引量：16
8殷亚博,杨文忠,杨慧婷,许超英.基于搜索改进的KNN文本分类算法[J].计算机工程与设计,2018,39(9):2923-2928. 被引量：15
9王子旗,何锦雯,蒋良孝.基于冗余度的KNN训练样本裁剪新算法[J].计算机工程与应用,2019,55(22):40-45. 被引量：2

引证文献2

1景永霞,苟和平,孙为.基于TextRank的KNN文本分类算法研究[J].洛阳理工学院学报（自然科学版）,2019,29(3):66-69.
2程勖,高雍政,郭芳.基于M-distance算法思想的优化加权KNN算法[J].大连理工大学学报,2021,61(6):645-651. 被引量：1

二级引证文献1

1周伟,牛誉蓉.基于K-近邻与FOA改进聚类的数据异常分析模型及用电行为分析[J].成都工业学院学报,2024,27(5):11-16.

1生态汽车评价管理中心抽样华晨宝马汽车有限公司[J].汽车之友,2017,0(22):104-104.
2廖天星,王玲.融合项目标签相似性的协同过滤推荐算法[J].计算机应用,2018,38(4):1007-1011. 被引量：2

贵州大学学报（自然科学版）

2018年第1期

浏览历史

内容加载中请稍等...

基于中心抽样的KNN算法在文本分类中的应用被引量：2

参考文献11

二级参考文献124

共引文献251

同被引文献9

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于中心抽样的KNN算法在文本分类中的应用 被引量：2

参考文献11

二级参考文献124

共引文献251

同被引文献9

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于中心抽样的KNN算法在文本分类中的应用被引量：2