基于样本重要性原理的KNN文本分类算法被引量：6

The KNN Text Classification Based on Sample Importance Principals

下载PDF

导出

摘要 KNN是重要数据挖掘算法之一,具有良好的文本分类性能.传统的KNN方法对所有样本权重看作相同,而忽略了不同样本对于分类贡献的不同.为了解决该个问题,提出了一种样本重要性原理,并在此基础上构造KNN分类器.应用随机游走算法识别类边界点,并计算出每个样本点的边界值,生成每个样本点的重要性得分,将样本重要性与KNN方法融合形成一种新的分类模型——SI-KNN.在中英文文本语料上的实验表明:改进的SI-KNN分类模型相比于传统的KNN方法有一定的提高. As one of the top ten data mining algorithms,KNN has good performance of text classification. All samples are treated as the same as its weight in the traditional KNN method,but the question that the different sample has the different contribution to the classification has been ignored. To solve the problem,a sample importance principals and KNN classifier constructed on the basis of this principle has been presented. Using the random walk algorithm to identify these samples near the class boundary,and calculate the boundary value of each sample. To generate the score of sample importance of each sample from the boundary value,combined sample importance with KNN method to form a new classification model. Experimental results show that the new SI-KNN classifier has some improvement compared to the traditional KNN method on the Chinese and English text corpus.

作者万韩永左家莉万剑怡王明文

机构地区江西师范大学计算机信息工程学院

出处《江西师范大学学报（自然科学版）》 CAS 北大核心 2015年第3期297-303,314,共8页 Journal of Jiangxi Normal University(Natural Science Edition)

基金国家自然科学基金(61272212 61163006 61203313 61365002 61462045)资助项目

关键词文本分类 KNN 样本重要性原理 SI-KNN ext classification KNN sample importance principals SI-KNN

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献18

1Rutkowski L,Jaworski M, Pietruczuk L, et al. The CARTdecision tree for mining data streams ! J ]. Information Sci- ences ,2014,266 : 1-15.
2Jiang Liangxiao, Cai Zhihua, Wang Dianhong, et al. Bayes- ian citation-KNN with distance weighting[J]. International Journal of Machine Learning and Cybernetics, 2014, 5 (2) :193-199.
3Bollen K A,Harden J J,Ray S,et al. BIC and alternative Bayesian information criteria in the selection of structural equation models [ J ]. Structural Equation Modeling: A Muhidisciplinary Journal ,2014,21 ( 1 ) : 1-19.
4Rebentrost P, Mohseni M, Lloyd S. Quantum support vector machine for big data classification [ J ]. Physical Review Letters ,2014,113 ( 13 ) : 130503.
5Utkin L V,Zhuk Y A. Robust boosting classification mod- els with local sets of probability distributions [ J ]. Knowl- edge-Based Systems,2014,61:59-75.
6Vapnik V N, Vapnik V. Statistical learning theory [ M ]. New York: Wiley, 1998.
7Hastie T, Tibshirani R, Friedman J, et al. The elements of statistical learning [ M ]. New York: Springer,2009.
8Bermejo S, Cabestany J. Large margin nearest neighbor classifiers [ M ]. Springer Berlin Heidelberg, 2001,84: 669-676.
9Domeniconi C, Gunopulos D, Peng J. Large margin nearest neighbor classifiers [ J 1. Neural Networks, IEEE Transac- tions on, 2005,16 (4) : 899-909.
10Chai Jing, Liu Hongwei, Chen Bo, et al. Large margin nea- rest local mean classifier [ J]. Signal Processing,2010,90 ( 1 ) : 236-248.

二级参考文献57

1钱晓东,王正欧.基于改进KNN的文本分类方法[J].情报科学,2005,23(4):550-554. 被引量：19
2乔玉龙,潘正祥,孙圣和.一种改进的快速k-近邻分类算法[J].电子学报,2005,33(6):1146-1149. 被引量：25
3罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量：55
4张国英,沙芸,江慧娜.基于粒子群优化的快速KNN分类算法[J].山东大学学报（理学版）,2006,41(3):120-123. 被引量：8
5HANJia-wei,Micheline Kanber著.数据挖掘概念与技术[M].北京:机械工业出版社,2007
6Tan Pang-Ning,Steinbach M,Kumar V.数据挖掘导论[M].范明,范宏建译.北京:人民邮电出版社,2006.
7Ogura H, Amano H, Kondo M. Feature selection with a measure of deviations from Poisson in text categorization [J]. Expert Systems with Applications, 2009,36(3) : 6826-6832.
8Pan J S, Qiao Y L,Sun S H. A fast K nearest neighbors classifi- cation algorithm [J]. IEICE Trans FundamElectron Commun Comput Sci, 2004,E87-A(4) : 961-963.
9Hart P E. The condensed nearest neighbor rule[J].IEEE Tran- sactions on Information Theory, 1968,14(3) : 515-516.
10Wilson D L. Asymptotic properties ofnearesmeighbor rules u- sing edited data [J].IEEE Transactions on Systems, Man and Cybernetics, 1972,2(3):408-421.

共引文献57

1段仲渊,罗钧韶,李强.基于浮动车的高速公路行程时间短时预测方法研究[J].交通与运输,2022,38(S01):108-111.
2林啟锋,蒙祖强,陈秋莲,陈智敏.结合语义和文本特征位串的高效KNN算法[J].计算机工程与设计,2013,34(7):2417-2421. 被引量：1
3卢伟胜,郭躬德,严宣辉,陈黎飞.SMwKnn:基于类别子空间距离加权的互k近邻算法[J].计算机科学,2014,41(2):166-169. 被引量：7
4陈智敏,蒙祖强,林啟锋.基于改进KNN的话题跟踪算法[J].小型微型计算机系统,2014,35(8):1722-1725. 被引量：2
5何田中,周忠眉,黄再祥.基于选择度的分类规则学习算法[J].计算机工程,2014,40(8):179-182.
6尹丽英,赵捧未.基于语义网络社团划分的中文文本分类研究[J].图书情报工作,2014,58(19):124-128. 被引量：7
7何田中,黄再祥.基于多置信度的不平衡数据分类算法[J].闽南师范大学学报（自然科学版）,2014,27(4):26-30.
8赵忠帅,张公敬.改进的KNN快速分类算法[J].青岛大学学报（自然科学版）,2014,27(4):39-43. 被引量：2
9刘文军,郑国义,张小琼.基于粗糙集与统计学习理论的样本分类算法[J].模糊系统与数学,2015,29(1):183-190. 被引量：2
10李克文,杨磊,刘文英,刘璐,刘洪太.基于RSBoost算法的不平衡数据分类方法[J].计算机科学,2015,42(9):249-252. 被引量：21

同被引文献45

1杨铭,陈建峰.基于CUDA的海量点云数据kNN查询算法[J].测绘通报,2012(S1):394-398. 被引量：3
2杨斌,匡立春,孙中春,施泽进.一种用于测井油气层综合识别的支持向量机方法[J].测井技术,2005,29(6):511-514. 被引量：26
3Rousseau F, Vazirgiannis M. Graph-of-word and TW-IDF: new approach to ad hoe IR [ C3. New York:ACM,2013: 59-68.
4Kherwa P,Sachdeva A,Mahajan D,et al. An approach to- wards comprehensive sentimental data analysis and opin- ion mining [ EB/OL]. [ 2014-10-16 ]. 10. ll09/IAdCC. 2014.6779394.
5Pang Bo, Lee L. A sentimental education:Sentiment analy- sis using subjectivity summarization based on minimum cuts [ EB/OL ]. [ 2014-10-23 ]. 10. 3115/1218955. 1218990.
6杜振雷,张仰森,李文坤,等.基于多特征融合的中文微博情感分类方法研究[c].第五届中文倾向性分析评测研讨会,2013:44-49.
7朱艳辉,杜锐,鲁琳,等.中文文本情感分析与比较句的识别研究[c].第五届中文倾向性分析评测研讨会,2013:34-43.
8刘志广,董喜双,关毅.中文微博情感倾向性研究[C].第五届中文倾向性分析评测研讨会,2013:81-87.
9蒋飞,刘奕群,张敏,等.THUIR-SENTI:COAE2013测评报告[EB/OL].[2013-10-17].http://wenku.55.1a/P一93139.html.
10徐琳宏,林鸿飞,潘宇,任惠,陈建美.情感词汇本体的构造[J].情报学报,2008,27(2):180-185. 被引量：386

引证文献6

1罗文兵,徐雄飞,王明文,左家莉.面向新闻的情感关键句抽取与判定[J].江西师范大学学报（自然科学版）,2015,39(6):642-646.
2张艳芳,张会丽.基于CUDA的数据挖掘KNN算法的改进[J].济南职业学院学报,2017(3):76-77.
3梁路,龚奔龙,黎剑,滕少华.一种缓解分类面交错的样本点扩散方法[J].计算机科学,2017,44(9):286-289.
4尹绍锋,郑蕙,徐少华,荣辉桂,张娜.一种基于特征库投影的文本分类算法[J].中南大学学报（自然科学版）,2017,48(7):1782-1789. 被引量：1
5许小媛,黄黎.距离度量学习算法的精确性研究[J].现代电子技术,2019,42(21):150-153.
6陈玉林,李戈理,杨智新,肖飞,车锐媚,陈彦竹.基于KNN算法识别合水地区长7储层岩性岩相[J].测井技术,2020,44(2):182-185. 被引量：20

二级引证文献21

1周雨航,车明亮,王晓文,钞振华,张驰,于扬鸿.图像分类方法对比评价研究[J].智能计算机与应用,2021,11(11):43-48.
2刘孝保,陆宏彪,阴艳超,陈志成.基于多元神经网络融合的分布式资源空间文本分类研究[J].计算机集成制造系统,2020,26(1):161-170. 被引量：8
3谷宇峰,张道勇,鲍志东.PSO-GBDT识别致密砂岩储集层岩性研究——以姬塬油田西部长4+5段为例[J].矿物岩石地球化学通报,2021,40(3):624-634. 被引量：7
4谷宇峰,张道勇,鲍志东.利用混合模型CRBM-PSO-XGBoost识别致密砂岩储层岩性[J].石油与天然气地质,2021,42(5):1210-1222. 被引量：9
5董金伟,张宏,黄凯,张群英,姚奇.GBDT识别致密砂岩储层岩性[J].地球物理学进展,2021,36(5):1956-1965. 被引量：8
6赖强,魏伯阳,吴煜宇,潘保芝,谢冰,郭宇航.基于随机森林的K-近邻算法划分火成岩岩性[J].特种油气藏,2021,28(6):62-69. 被引量：7
7贺婷,周宁.Stacked generalization集成方法在测井岩相分类中的应用[J].国外测井技术,2022,43(3):73-78.
8孙岿.基于改进KNN算法的潜山复杂岩性测井识别方法[J].特种油气藏,2022,29(3):18-27. 被引量：12
9金雪英,周鹏林,王春燕,付美男.合川-潼南地区茅一段泥灰岩岩性测井识别方法[J].国外测井技术,2022,43(4):54-59.
10岳中文,闫逸飞,王煦,岳小磊,孙思晋,李杨,胡少银,甘林堂.基于随钻数据的岩性识别机器学习算法研究进展[J].科学技术与工程,2023,23(10):4044-4057. 被引量：3

1李华,吴志强,王芸.基于属性重要性的Rough集属性约简方法[J].计算机与现代化,2006(12):69-70. 被引量：1
2李凯,李娜,卢霄霞.一种模糊加权的孪生支持向量机算法[J].计算机工程与应用,2013,49(4):162-165. 被引量：7
3舒服华.粗糙集在电能质量综合评价中应用[J].电力自动化设备,2008,28(10):75-79. 被引量：19
4钟蜜,刘斌.基于优化的决策树算法在热轧工艺中的应用[J].信息技术,2011,35(10):222-224. 被引量：1
5李晓红,李茂林.用户兴趣模型在垂直搜索引擎检索模块中的应用[J].计算机时代,2012(12):34-35.
6吴静,吴晓燕,高忠长.基于模糊聚类和粗糙集的仿真可信性模糊综合评估[J].系统工程与电子技术,2010,32(4):770-773. 被引量：12
7应新洋,陈勇旗.稀疏Tikhonov正则化多分类支持向量机[J].计算机仿真,2009,26(6):104-108.
8汪廷华,田盛丰,黄厚宽,廖年冬.样本属性重要度的支持向量机方法[J].北京交通大学学报,2007,31(5):87-90. 被引量：6
9赵海士,路来君,杨晨.一种基于图像熵的密度峰值聚类波段选择方法[J].吉林大学学报（理学版）,2017,55(2):376-378. 被引量：6
10杜树新,吴铁军.回归型加权支持向量机方法及其应用[J].浙江大学学报（工学版）,2004,38(3):302-306. 被引量：22

江西师范大学学报（自然科学版）

2015年第3期

浏览历史

内容加载中请稍等...

基于样本重要性原理的KNN文本分类算法被引量：6

参考文献18

二级参考文献57

共引文献57

同被引文献45

引证文献6

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于样本重要性原理的KNN文本分类算法 被引量：6

参考文献18

二级参考文献57

共引文献57

同被引文献45

引证文献6

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于样本重要性原理的KNN文本分类算法被引量：6