基于密度的kNN文本分类器训练样本裁剪方法被引量：98

A Density-Based Method for Reducing the Amount of Training Data in kNN Text Classification

下载PDF

导出

摘要随着WWW的迅猛发展 ,文本分类成为处理和组织大量文档数据的关键技术 kNN方法作为一种简单、有效、非参数的分类方法 ,在文本分类中得到广泛的应用但是这种方法计算量大 ,而且训练样本的分布不均匀会造成分类准确率的下降针对kNN方法存在的这两个问题 ,提出了一种基于密度的kNN分类器训练样本裁剪方法 ,这种方法不仅降低了kNN方法的计算量 ,而且使训练样本的分布密度趋于均匀 ,减少了边界点处测试样本的误判实验结果显示。 With the rapid development of World Wide Web, text classification has become the key technology in organizing and processing large amount of document data As a simple, effective and nonparametric classification method, k NN method is widely used in document classification But k NN classifier not only has large computational demands, but also may decrease the precision of classification because of the uneven density of training data In this paper, a density based method for reducing the amount of training data is presented, which solves two problems mentioned above It not only reduces the computational demands of k NN classifier, but also makes the density of training data even and decreases the wrong classification between the edge of classes The experiment also shows that it has good performance

作者李荣陆胡运发

机构地区复旦大学计算机与信息技术系

出处《计算机研究与发展》 EI CSCD 北大核心 2004年第4期539-545,共7页 Journal of Computer Research and Development

基金国家自然科学基金项目 (60 173 0 2 7)

关键词文本分类 KNN 快速分类 text classification k nearest neighbor fast classification

分类号 TP391 [自动化与计算机技术—计算机应用技术] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献13

1[1]D D Lewis. Naive (Bayes) at forty: The independence assumption in information retrieval. In: The 10th European Conf on Machine Learning(ECML98), New York: Springer-Verlag, 1998. 4～15
2[2]Y Yang, X Lin. A re-examination of text categorization methods. In: The 22nd Annual Int'l ACM SIGIR Conf on Research and Development in Information Retrieval, New York: ACM Press, 1999
3[3]Y Yang, C G Chute. An example-based mapping method for text categorization and retrieval. ACM Trans on Information Systems, 1994, 12(3): 252～277
4[4]E Wiener. A neural network approach to topic spotting. The 4th Annual Symp on Document Analysis and Information Retrieval (SDAIR 95), Las Vegas, NV, 1995
5[5]R E Schapire, Y Singer. Improved boosting algorithms using confidence-rated predications. In: Proc of the 11th Annual Conf on Computational Learning Theory. Madison: ACM Press, 1998. 80～91
6[6]T Joachims. Text categorization with support vector machines: Learning with many relevant features. In: The 10th European Conf on Machine Learning (ECML-98). Berlin: Springer, 1998. 137～142
7[7]S O Belkasim, M Shridhar, M Ahmadi. Pattern classification using an efficient KNNR. Pattern Recognition Letter, 1992, 25(10): 1269～1273
8[8]V E Ruiz. An algorithm for finding nearest neighbors in (approximately) constant average time. Pattern Recognition Letter, 1986, 4(3): 145～147
9[9]P E Hart. The condensed nearest neighbor rule. IEEE Trans on Information Theory, 1968, IT-14(3): 515～516
10[10]D L Wilson. Asymptotic properties of nearest neighbor rules using edited data. IEEE Trans on Systems, Man and Cybernetics, 1972, 2(3): 408～421

同被引文献841

1张振豪,过弋,韩美琪,王吉祥.基于关键词相似度的短文本分类方法研究[J].计算机应用研究,2020,37(1):26-29. 被引量：7
2崔宇,侯慧娟,苏磊,钱涛,盛戈皞,江秀臣.考虑不平衡案例样本的电力变压器故障诊断方法[J].高电压技术,2020,46(1):33-41. 被引量：30
3姜文瀚,周晓飞,杨静宇.基于样本选择的最近邻凸包分类器[J].中国图象图形学报,2008,13(1):109-113. 被引量：4
4王俊英,郭景峰,霍峥.中文文本分类系统的设计与实现[J].微电子学与计算机,2006,23(z1):262-265. 被引量：3
5李锋刚,倪志伟,杨善林,黄玲.案例推理中属性约简及其性能评价[J].清华大学学报（自然科学版）,2006,46(z1):1025-1029. 被引量：12
6廖海波,万中英,王明文.基于投影寻踪回归文本自动分类的模型[J].清华大学学报（自然科学版）,2005,45(S1):1823-1827. 被引量：5
7张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：26
8庄东,陈英.基于加权近似支持向量机的文本分类[J].清华大学学报（自然科学版）,2005,45(S1):1787-1790. 被引量：16
9钟延辉,傅彦,陈安龙,关娜.基于抽样的垃圾短信过滤方法[J].计算机应用研究,2009,26(3):933-935. 被引量：15
10刘海峰,姚泽清,汪泽焱,张学仁.基于位置的文本特征加权方法研究[J].微电子学与计算机,2009,26(2):188-192. 被引量：9

引证文献98

1姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
2郑凌铭,舒胜文,陈彬,吴涵,黄建业,钱健.强台风环境下基于格点化和支持向量机的10 kV杆塔受损量预测方法[J].高电压技术,2020,46(1):42-51. 被引量：14
3李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
4华北,曹先彬.基于代表样本动态生成的中文网页分类[J].计算机应用,2006,26(10):2502-2504. 被引量：2
5李订芳,胡文超,何炎祥.基于共享最近邻聚类和模糊集理论的分类器[J].控制与决策,2006,21(10):1103-1108. 被引量：5
6王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
7屈军,林旭.文本分类中特征提取方法的比较与分析[J].现代计算机,2007,13(4):10-13. 被引量：8
8印鉴,谭焕云.基于χ~2统计量的kNN文本分类算法[J].小型微型计算机系统,2007,28(6):1094-1097. 被引量：13
9华北,曹先彬.基于代表样本动态生成的快速文本分类[J].计算机仿真,2007,24(6):322-325.
10王修君,沈鸿.一种基于增量学习型矢量量化的有效文本分类算法[J].计算机学报,2007,30(8):1277-1285. 被引量：14

二级引证文献809

1胡阳,杨泽,房方,任健.火电机组供电碳减排高维运行特征提取及其最优基准值确定[J].中国电机工程学报,2021,41(S01):210-220. 被引量：11
2冯蕴天,王国良,韩慧,许雄,陈翔,吴若无,邰宁.面向电磁大数据的未知雷达辐射源智能识别[J].太赫兹科学与电子信息学报,2021,19(4):589-595. 被引量：4
3熊漩,严佩敏.融合多头自注意力机制的中文分类方法[J].电子测量技术,2020(10):125-130. 被引量：7
4顾唐杰,秦波,蒋小菲.一种基于改进型Chameleon算法的宿舍分配方法[J].智能计算机与应用,2022,12(5):23-30.
5王宏,夏禹,常静静.面向政府采购数据的工程化采集方案设计[J].智能计算机与应用,2020,10(7):170-175. 被引量：2
6于伟杰,杨文忠,任秋如.基于全词BERT的集成用户画像方法[J].东北师大学报（自然科学版）,2022,54(4):87-92. 被引量：2
7李灿泽,吴根秀.基于证据理论与核函数的k-NN分类新方法[J].中国软科学,2010(S1):393-397.
8隋国华,李春雷.基于组合分类器的地层含油情况智能决策系统[J].计算机研究与发展,2011,48(S3):476-479.
9陈文庆,李勤,姚伽华.基于最大熵模型的垃圾邮件过滤方法[J].网络安全技术与应用,2005(1):16-18. 被引量：1
10修宇,王士同,朱林,宗成庆.极大熵球面K均值文本聚类分析[J].计算机科学与探索,2007,1(3):331-339. 被引量：1

1李国强.关于“在微机上以极小内存实现快速分类的方法”的改进[J].计算机应用与软件,1989,6(5):56-58.
2徐青松,汪涛,邢小良,陈小平.快速分类神经网络在字符识别中的应用[J].数据采集与处理,1993,8(2):94-101.
3丁应逵.训练样本分布不均的KNN分类改进算法[J].价值工程,2014,33(2):180-182. 被引量：3
4闫秋玲,王二暖.基于单词簇的朴素贝叶斯文本分类器[J].华北水利水电学院学报,2007,28(1):72-75.
5姜春茂,段莹.基于PDA的Linux文件系统裁剪问题研究[J].计算机与信息技术,2007(12):37-39.
6包晓安,钟乐海.基于ID3算法的快速分类方法研究[J].现代电子技术,2004,27(7):84-85. 被引量：8
7Thimb.,H,汪良.短讯：在插入分类中使用标记[J].软件,1989,10(9):746-751.
8屈军,林旭.文本分类中特征提取方法的比较与分析[J].现代计算机,2007,13(4):10-13. 被引量：8
9邵乐,于红,刘溪婧,綦孝姬,梁晓娜.基于朴素贝叶斯的渔业文本分类器研究[J].大连水产学院学报,2010,25(1):45-48. 被引量：2
10姜春茂,段莹.基于PDA的linux文件系统裁剪问题研究[J].电脑知识与技术,2007(9):1420-1421.

计算机研究与发展

2004年第4期

浏览历史

内容加载中请稍等...

基于密度的kNN文本分类器训练样本裁剪方法被引量：98

参考文献13

同被引文献841

引证文献98

二级引证文献809

相关作者

相关机构

相关主题

浏览历史

基于密度的kNN文本分类器训练样本裁剪方法 被引量：98

参考文献13

同被引文献841

引证文献98

二级引证文献809

相关作者

相关机构

相关主题

浏览历史

基于密度的kNN文本分类器训练样本裁剪方法被引量：98