基于搜索改进的KNN文本分类算法被引量：15

KNN text classification algorithm based on search improvement

下载PDF

导出

摘要为解决基于TF-IDF的KNN算法在文本分类时没有考虑文本特征值的多峰分布和文本相似度的计算量导致分类性能差的问题,提出一种基于搜索改进的KNN文本分类算法SIKNN(KNN text classification algorithm based on search improvement)。计算待测样本与聚类后每个类别中样本的平均相似度;当很容易就确定待测样本所属类别时,就停止该待测样本与其它类别中样本相似度的比较,缩小文本相似度计算的搜索空间,提高文本分类的速度。该算法在数据集20-Newsgroups上分别与传统的KNN算法和改进的KNN算法做对比实验,实验结果表明,该算法能够明显提高KNN算法的分类性能和分类速度。 The traditional KNN classification algorithm based on TF-IDF does not consider the multimodal distribution of sample’s feature value and the computation of text similarity in text classification,which leads to poor classification performance.To address this problem,the KNN text classification algorithm based on the search improvement(SIKNN)was proposed.The avera-ge similarity was computed between the measured sample and the sample in each category after clustering.When the algorithm was easy to identify the measured sample’s category where it belonged to,it stopped computing the text similarity between the measured sample and the samples in other categories,which reduced the search space of text similarity computation and improved the speed of text classification.The algorithm was compared with the traditional KNN algorithm and the improved KNN algorithm on the 20-Newsgroups data set.Experimental results show that the proposed algorithm can significantly improve the classification performance and classification speed of KNN algorithm.

作者殷亚博杨文忠杨慧婷许超英 YIN Ya-bo;YANG Wen-zhong;YANG Hui-ting;XU Chao-ying(School of Information Science and Engineering,Xinjiang University,Urumqi 830046,China;School of Software,Xinjiang University,Urumqi 830046,China)

机构地区新疆大学信息科学与工程学院新疆大学软件学院

出处《计算机工程与设计》北大核心 2018年第9期2923-2928,共6页 Computer Engineering and Design

基金国家973重点基础研究发展计划基金项目(2014CB340500) 国家自然科学基金项目(U1603115 61262087)

关键词 K最近邻文本分类相似度多峰分布聚类 K-nearest neighbor text classification similarity multimodal distribution clustering

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1邸鹏,段利国.一种新型朴素贝叶斯文本分类算法[J].数据采集与处理,2014,29(1):71-75. 被引量：51
2王超学,潘正茂,马春森,董丽丽,张涛.改进型加权KNN算法的不平衡数据集分类[J].计算机工程,2012,38(20):160-163. 被引量：26
3罗贤锋,祝胜林,陈泽健,袁玉强.基于K-Medoids聚类的改进KNN文本分类算法[J].计算机工程与设计,2014,35(11):3864-3867. 被引量：25
4周庆平,谭长庚,王宏君,湛淼湘.基于聚类改进的KNN文本分类算法[J].计算机应用研究,2016,33(11):3374-3377. 被引量：68
5樊存佳,汪友生,边航.一种改进的KNN文本分类算法[J].国外电子测量技术,2015,34(12):39-43. 被引量：25

二级参考文献62

1钱晓东,王正欧.基于改进KNN的文本分类方法[J].情报科学,2005,23(4):550-554. 被引量：19
2赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21
3周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：72
4董乐红,耿国华,周明全.基于Boosting算法的文本自动分类器设计[J].计算机应用,2007,27(2):384-386. 被引量：13
5王煜,王正欧,白石.用于文本分类的改进KNN算法[J].中文信息学报,2007,21(3):76-82. 被引量：15
6盛骤,谢式千,潘乘毅.概率论与数理统计[M].北京:高等教育出版社,2010.
7MitchellTM著曾华军张银奎译.机器学习[M].北京:机械工业出版社,2003..
8Paolo S. A Multi-objective Optimization Approach for Class Imbalance Learning[J]. Pattern Recognition, 2011, 44(8): 1801- 1810.
9Tan Songbo. Neighbor-weighted K-nearest Neighbor for Unbalanced Text Corpus[J]. Expert Systems with Applications, 2005, 28(4): 667-671.
10Jason V H, Taghi K. Knowledge Discovery from Imbalanced and Noisy Data[J]. Knowledge and Data Engineering, 2009, 68(12): 1513-1542.

共引文献179

1熊漩,严佩敏.融合多头自注意力机制的中文分类方法[J].电子测量技术,2020(10):125-130. 被引量：7
2刘筱,阎小培.九十年代广东省不同经济地域差异分析[J].热带地理,2000,20(1):1-7. 被引量：25
3王鹤琴,王杨.基于贝叶斯决策的网格社区案卷分发模型[J].山东大学学报（理学版）,2018,53(11):85-94. 被引量：1
4裴韬,郭思慧,袁烨城,张雪英,袁文,高昂,赵志远,薛存金.面向公共安全事件的网络文本大数据结构化研究[J].地球信息科学学报,2019,21(1):2-13. 被引量：16
5陈智敏,蒙祖强,林啟锋.基于改进KNN的话题跟踪算法[J].小型微型计算机系统,2014,35(8):1722-1725. 被引量：2
6何田中,周忠眉,黄再祥.基于选择度的分类规则学习算法[J].计算机工程,2014,40(8):179-182.
7尹丽英,赵捧未.基于语义网络社团划分的中文文本分类研究[J].图书情报工作,2014,58(19):124-128. 被引量：7
8柴丹炜,邵思思,张若昕,乐光学,刘建生.网络舆论话题分类算法研究与实证分析[J].嘉兴学院学报,2014,26(6):116-123. 被引量：2
9何田中,黄再祥.基于多置信度的不平衡数据分类算法[J].闽南师范大学学报（自然科学版）,2014,27(4):26-30.
10杨阳,张文生.基于深度学习的图像自动标注算法[J].数据采集与处理,2015,30(1):88-98. 被引量：26

同被引文献129

1余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：10
2陶志勇,李小兵,刘影,刘晓芳.基于双向长短时记忆网络的改进注意力短文本分类方法[J].数据分析与知识发现,2019,3(12):21-29. 被引量：23
3伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
4张著英,黄玉龙,王翰虎.一个高效的KNN分类算法[J].计算机科学,2008,35(3):170-172. 被引量：55
5王小辉,汪云甲,张伟.基于RFID的室内定位技术评述[J].传感器与微系统,2009,28(2):1-3. 被引量：61
6陶冶,曾志勇.Robust的分布式k中心聚类算法的研究与实现[J].计算机工程与应用,2009,45(32):122-125. 被引量：2
7刘志明,刘鲁.基于机器学习的中文微博情感分类实证研究[J].计算机工程与应用,2012,48(1):1-4. 被引量：124
8谢晶晶,赵东东.UHF Passive RFID标签最大阅读距离的研究[J].电子测量技术,2012,35(3):45-49. 被引量：11
9张玉芳,万斌候,熊忠阳.文本分类中的特征降维方法研究[J].计算机应用研究,2012,29(7):2541-2543. 被引量：36
10饶丽丽,刘雄辉,张东站.基于特征相关的改进加权朴素贝叶斯分类算法[J].厦门大学学报（自然科学版）,2012,51(4):682-685. 被引量：30

引证文献15

1王建仁,马鑫,段刚龙.改进的K-means聚类k值选择算法[J].计算机工程与应用,2019,55(8):27-33. 被引量：109
2赵彦春,贾军风,林锦州.基于文本挖掘的汽车车型评价分析研究[J].汽车工业研究,2019(2):40-44.
3吴华阳,李正勤.基于嵌入式系统的解魔方机器人设计[J].单片机与嵌入式系统应用,2019,19(11):31-34. 被引量：1
4景永霞,苟和平,孙为.基于TextRank的KNN文本分类算法研究[J].洛阳理工学院学报（自然科学版）,2019,29(3):66-69.
5张辉,何倩.基于嵌入式平台与kNN算法的室内定位研究[J].巢湖学院学报,2019,21(6):116-126.
6尹春勇,何苗.基于改进胶囊网络的文本分类[J].计算机应用,2020,40(9):2525-2530. 被引量：10
7黄细凤.基于聚类的文本分类算法框架研究[J].计算机与数字工程,2021,49(1):21-25.
8武海燕,李坤明.基于信息增益的KNN社交网络异常用户检测[J].软件导刊,2021,20(4):53-56. 被引量：1
9程勖,高雍政,郭芳.基于M-distance算法思想的优化加权KNN算法[J].大连理工大学学报,2021,61(6):645-651. 被引量：1
10程雅倩,黄玮,金晓祥,贾佳.5G环境下高校图书馆自媒体平台多标签文本分类方法研究[J].情报科学,2022,40(2):155-161. 被引量：10

二级引证文献140

1冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：11
2刘甜甜,齐述华.DBSCAN算法在城市科教文化设施集群识别中的应用研究——以贵阳市中心城区为例[J].创新科技,2019,19(2):18-24.
3陈延超,方明,陆秋云,欧阳丹.基于最小二乘支持向量机的输电线路耐张塔比例调整系数[J].广西电力,2019,42(3):20-23. 被引量：1
4王立友,郑海鹏.基于Hadoop的K-Means算法的设计与实现[J].绥化学院学报,2019,39(11):154-157. 被引量：1
5李若熙,赵一秾,曹语含,陈小静,张学东.自适应聚类激光标定图像提取算法的研究[J].辽宁科技大学学报,2019,42(4):294-300.
6王海燕,崔文超,许佩迪,李闯.一种局部概率引导的优化K-means++算法[J].吉林大学学报（理学版）,2019,57(6):1431-1436. 被引量：7
7杨俊闯,赵超.K-Means聚类算法研究综述[J].计算机工程与应用,2019,55(23):7-14. 被引量：288
8巫朝星.基于孤立森林模型的企业用水异常检测研究[J].企业科技与发展,2019,0(11):61-62. 被引量：3
9李鹏飞.基于K-means聚类算法的高校图书馆用户分类及价值评价[J].电子元器件与信息技术,2019,3(9):73-76. 被引量：7
10邓滨玥.K均值优化算法综述[J].软件,2020,41(2):188-192. 被引量：12

1叶迎,王瑞海,包强,柏冬,薛欣,李玉梅,张立石,苗青,许京,刘丽梅.甘肃一、二年生红芪与黄芪黄酮类成分指纹图谱分析[J].中国实验方剂学杂志,2018,24(3):83-89. 被引量：10
2高友文,周本君,胡晓飞.基于数据增强的卷积神经网络图像识别研究[J].计算机技术与发展,2018,28(8):62-65. 被引量：50
3吴文心.依托层次分析和模糊聚类方法的发达地域中长期负荷预测研究[J].电气技术,2017,18(10):74-78. 被引量：1
4谢修娟,李香菊,莫凌飞.基于改进K-means算法的微博舆情分析研究[J].计算机工程与科学,2018,40(1):155-158. 被引量：17
5王朋展,杜宝香,付业佩,孙启慧,巩丽丽,容蓉.基于多波长指纹图谱分析不同产地半夏水溶性成分[J].中华中医药杂志,2018,33(3):911-914. 被引量：11
6本刊CHIC报道小组.数字化升级沸腾狂欢“打怪兽”[J].中国纺织,2018,0(7):118-120.
7邹宇驰,刘松,于楠,朱红松,孙利民,李红,王旭.基于搜索的物联网设备识别框架[J].信息安全学报,2018,3(4):25-40. 被引量：6
8牟雪松,马俊,王永达,范育新.粒度分布的端元建模分析及检验：以“吉兰泰--河套”盆地西部DK-12钻孔晚第四纪沉积物为例[J].古地理学报,2018,20(3):489-500. 被引量：7
9陈永刚.中药沉香品种鉴定方法以及鉴别分析[J].中国现代药物应用,2018,12(9):221-222. 被引量：4
10吴克介,王家伟.基于知网与搜索引擎的词汇语义相似度计算[J].计算机与现代化,2018(4):90-94. 被引量：6

计算机工程与设计

2018年第9期

浏览历史

内容加载中请稍等...

基于搜索改进的KNN文本分类算法被引量：15

参考文献5

二级参考文献62

共引文献179

同被引文献129

引证文献15

二级引证文献140

相关作者

相关机构

相关主题

浏览历史

基于搜索改进的KNN文本分类算法 被引量：15

参考文献5

二级参考文献62

共引文献179

同被引文献129

引证文献15

二级引证文献140

相关作者

相关机构

相关主题

浏览历史

基于搜索改进的KNN文本分类算法被引量：15