一种基于增量学习型矢量量化的有效文本分类算法被引量：14

Improved Growing Learning Vector Quantification for Text Classification

下载PDF

导出

摘要 KNN作为一种简单的分类方法在文本分类中有广泛的应用,但存在着计算量大和训练文档分布不均所造成的分类准确率下降等问题.针对这些问题,基于最小化学习误差的增量思想,该文将学习型矢量量化(LVQ)和生长型神经气(GNG)结合起来提出一种新的增量学习型矢量量化方法,并将其应用到文本分类中.文中提出的算法对所有的训练样本有选择性地进行一次训练就可以生成有效的代表样本集,具有较强的学习能力.实验结果表明:这种方法不仅可以降低KNN方法的测试时间,而且可以保持甚至提高分类的准确性. As a simple classification method KNN has been widely applied in text classification. There are two problems in KNN-based text classification： the large computation load and the deterioration of classification accuracy caused by the non-uniform distribution of training samples. To solve these problems, based on minimizing the increment of learning errors and combining LVQ and GNG, the authors propose a new growing LVQ method and apply it to text classification. The method can generate an effective representative sample set after one phase of selective training of the training sample set, and hence has a strong learning ability. Experimental results show that this method can not only reduce the testing time of KNN, but also maintain or even improve the accuracy of classification.

作者王修君沈鸿

机构地区中国科学技术大学计算机科学与技术系

出处《计算机学报》 EI CSCD 北大核心 2007年第8期1277-1285,共9页 Chinese Journal of Computers

关键词学习型矢量量化(LVQ) 生长型神经气(GNG) 学习误差类间距离学习概率 learning vector quantification growing neural gas learning error inter-class distance learning probability

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献20

1Fukunaga K,Narendra P M.A branch and bound algorithm for computing k-nearest neighbors.IEEE Transactions on Computers,1975,24(7):750-753
2乔玉龙,潘正祥,孙圣和.一种改进的快速k-近邻分类算法[J].电子学报,2005,33(6):1146-1149. 被引量：25
3Pan J S,Qiao Y L,Sun S H.A fast k-nearest neighbors classification algorithm.IEICE Transactions on Fundamentals of Electronics,Communications and Computer Sciences,2004,E87-A(4):961-963
4Huang W J,Wen K W.Fast KNN classification algorithm based on partial distance search.Electron Letters,1998,34(21):2062-2063
5Hart P E.The condensed nearest neighbor rule.IEEE Transactions on Information Theory,1968,14(3):515-516
6李荣陆,胡运发.基于密度的kNN文本分类器训练样本裁剪方法[J].计算机研究与发展,2004,41(4):539-545. 被引量：98
7Li Rong-Lu,Hu Yun-Fa.Noise reduction to text categorization based on density for KNN//Proceedings of the 2nd International Conference on Machine Learning and Cybernetics.Xi'an,2003:3119-3124
8Zhou Shui-Geng et al.Fast text classification:A trainingcorpus pruning based approach//Proceedings of the 8th International Conference on Database Systems for Advanced Application.Los Alamitos:IEEE Computer Society,2003:127-136
9Wilson D L.Asymptotic properties of nearest neighbor rules using edited data.IEEE Transactions on Systems,Man and Cybernetics,1972,2(3):408-421
10Devijver P,Kittler J.Pattern Recognition:A Statistical Approach.Englwood Cliffs:Prentice Hall,1982

二级参考文献27

1[1]D D Lewis. Naive (Bayes) at forty: The independence assumption in information retrieval. In: The 10th European Conf on Machine Learning(ECML98), New York: Springer-Verlag, 1998. 4～15
2[2]Y Yang, X Lin. A re-examination of text categorization methods. In: The 22nd Annual Int'l ACM SIGIR Conf on Research and Development in Information Retrieval, New York: ACM Press, 1999
3[3]Y Yang, C G Chute. An example-based mapping method for text categorization and retrieval. ACM Trans on Information Systems, 1994, 12(3): 252～277
4[4]E Wiener. A neural network approach to topic spotting. The 4th Annual Symp on Document Analysis and Information Retrieval (SDAIR 95), Las Vegas, NV, 1995
5[5]R E Schapire, Y Singer. Improved boosting algorithms using confidence-rated predications. In: Proc of the 11th Annual Conf on Computational Learning Theory. Madison: ACM Press, 1998. 80～91
6[6]T Joachims. Text categorization with support vector machines: Learning with many relevant features. In: The 10th European Conf on Machine Learning (ECML-98). Berlin: Springer, 1998. 137～142
7[7]S O Belkasim, M Shridhar, M Ahmadi. Pattern classification using an efficient KNNR. Pattern Recognition Letter, 1992, 25(10): 1269～1273
8[8]V E Ruiz. An algorithm for finding nearest neighbors in (approximately) constant average time. Pattern Recognition Letter, 1986, 4(3): 145～147
9[9]P E Hart. The condensed nearest neighbor rule. IEEE Trans on Information Theory, 1968, IT-14(3): 515～516
10[10]D L Wilson. Asymptotic properties of nearest neighbor rules using edited data. IEEE Trans on Systems, Man and Cybernetics, 1972, 2(3): 408～421

共引文献119

1姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
2郑凌铭,舒胜文,陈彬,吴涵,黄建业,钱健.强台风环境下基于格点化和支持向量机的10 kV杆塔受损量预测方法[J].高电压技术,2020,46(1):42-51. 被引量：11
3李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
4张国英,沙芸,江慧娜.基于粒子群优化的快速KNN分类算法[J].山东大学学报（理学版）,2006,41(3):120-123. 被引量：8
5华北,曹先彬.基于代表样本动态生成的中文网页分类[J].计算机应用,2006,26(10):2502-2504. 被引量：2
6李订芳,胡文超,何炎祥.基于共享最近邻聚类和模糊集理论的分类器[J].控制与决策,2006,21(10):1103-1108. 被引量：5
7谭磊,张桦,薛彦斌.一种基于特征点的图像匹配算法[J].天津理工大学学报,2006,22(6):66-69. 被引量：11
8王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
9屈军,林旭.文本分类中特征提取方法的比较与分析[J].现代计算机,2007,13(4):10-13. 被引量：8
10印鉴,谭焕云.基于χ~2统计量的kNN文本分类算法[J].小型微型计算机系统,2007,28(6):1094-1097. 被引量：13

同被引文献160

1廖海波,万中英,王明文.基于投影寻踪回归文本自动分类的模型[J].清华大学学报（自然科学版）,2005,45(S1):1823-1827. 被引量：5
2张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：26
3付雪峰,王明文.基于模糊-粗糙集的文本分类方法[J].华南理工大学学报（自然科学版）,2004,32(z1):73-76. 被引量：8
4曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
5孔勇平.矢量量化LBG算法的研究[J].硅谷,2008,1(6):39-40. 被引量：7
6侯汉清.分类法的发展趋势简论[J].情报科学,1981,2(1):58-63. 被引量：14
7杨欢,张玉清,胡予濮,刘奇旭.基于权限频繁模式挖掘算法的Android恶意应用检测方法[J].通信学报,2013,34(S1):106-115. 被引量：47
8钟将,吴中福,吴开贵,欧灵.基于人工免疫网络的动态聚类算法[J].电子学报,2004,32(8):1268-1272. 被引量：24
9宋枫溪,高林.文本分类器性能评估指标[J].计算机工程,2004,30(13):107-109. 被引量：33
10孙晋文,肖建国.基于SVM的中文文本分类反馈学习技术的研究[J].控制与决策,2004,19(8):927-930. 被引量：16

引证文献14

1刘波,杨路明,邓云龙.向量矩阵迭代自组织XML辅助聚类算法[J].系统工程与电子技术,2008,30(12):2488-2492.
2冯乃勤,董亚杰,南书坡,郭战杰.均衡竞争神经元获胜机会的方法[J].计算机工程与设计,2009,30(4):971-973. 被引量：1
3魏唯,欧阳丹彤,吕帅,殷明浩.一种多目标增量启发式搜索算法[J].吉林大学学报（理学版）,2009,47(4):752-758. 被引量：5
4欧阳勇,马忠宝.一种动态调整训练集的中文文本分类系统[J].湖北工业大学学报,2009,24(5):57-60.
5肖可,奉国和.1999～2008年国内文本分类研究文献计量分析[J].情报学报,2010,29(4):679-687. 被引量：6
6赵鹏,王友仁,崔江,罗慧.模拟电路免疫记忆网络故障诊断方法[J].信息与控制,2010,39(5):574-580. 被引量：3
7郭躬德,黄杰,陈黎飞.基于KNN模型的增量学习算法[J].模式识别与人工智能,2010,23(5):701-707. 被引量：26
8魏唯,欧阳丹彤,吕帅,殷明浩.结合增量与启发式搜索的多目标问题处理方法[J].计算机研究与发展,2010,47(11):1954-1961. 被引量：4
9郑华,吴克文,朱庆华.基于神经网络和SNA的C2C电子商务信誉欺诈识别研究[J].计算机应用研究,2011,28(5):1882-1885. 被引量：6
10张强,金义富.码书自适应的大规模体数据矢量量化算法[J].计算机应用与软件,2013,30(2):212-215.

二级引证文献59

1赵璐,何子况,朱秋煜.基于CNN和BIRCH聚类算法的类别增量学习[J].电子测量技术,2020(11):79-84. 被引量：1
2黄杰,郭躬德,陈黎飞.增量KNN模型的修剪策略研究[J].小型微型计算机系统,2011,32(5):845-849. 被引量：6
3魏唯,欧阳丹彤,吕帅,冯宇轩.动态不确定环境下多目标路径规划方法[J].计算机学报,2011,34(5):836-846. 被引量：26
4李天伟,李正友,韩云东.自动舵电路板神经网络故障诊断方法[J].舰船科学技术,2011,33(7):43-45.
5路永和,曹利朝.基于粒子群优化的文本特征选择方法[J].现代图书情报技术,2011(7):76-81. 被引量：6
6王欢,武刚,杨抒.基于文本分类的林业Web黄页分类系统[J].计算机系统应用,2012,21(1):21-24. 被引量：2
7周靖,刘晋胜.基于分类贡献有效值的增量KNN模型修剪研究[J].计算机工程与应用,2012,48(3):185-188. 被引量：1
8沙如雪.问题解决研究及其智能化历程[J].中国校外教育,2012(5):43-43.
9李南,郭躬德,陈黎飞.基于少量类标签的概念漂移检测算法[J].计算机应用,2012,32(8):2176-2181. 被引量：7
10奉国和,吴敬学.KNN分类算法改进研究进展[J].图书情报工作,2012,56(21):97-100. 被引量：27

1Peter Roost.CAM的收益和变化[J].软件,2008,29(2):2-2.
2任伟建,刘东辉,王显伟,王天任,康朝海.基于改进GNG网络的机器人路径规划方法[J].系统仿真学报,2014,26(5):1000-1005. 被引量：1
3邱阿瑞,孙健.用模糊逻辑方法优化多层前馈网络结构[J].电工电能新技术,1999,18(4):1-4.
4曾锋,杨通,姚山.点云重构三角网格的生长型神经气算法[J].软件学报,2013,24(3):651-662. 被引量：4
5肖云,韩崇昭,郑庆华,昝鑫.基于核神经气聚类的入侵报警分析[J].系统工程与电子技术,2006,28(9):1442-1446.
6王东署,王海涛.未知环境中自主机器人环境探索与地图构建[J].郑州大学学报（理学版）,2013,45(4):52-57. 被引量：5
7王东署,段谊海,王佳.未知环境中移动机器人的环境探索与地图构建[J].郑州大学学报（理学版）,2014,46(3):96-101. 被引量：3
8胡艳艳,蔡建立.一类新遗传算法[J].厦门大学学报（自然科学版）,2006,45(5):738-740. 被引量：3
9张清,杨关辉,高婷婷,郑宏,罗骏尧.基于区域生长型PCNN模型的织物疵点分割[J].计算机应用与软件,2011,28(11):171-175. 被引量：2
10杜海峰,王孙安.一种改进的神经网络控制方法及其仿真研究[J].系统仿真学报,2001,13(6):730-731. 被引量：4

计算机学报

2007年第8期

浏览历史

内容加载中请稍等...

一种基于增量学习型矢量量化的有效文本分类算法被引量：14

参考文献20

二级参考文献27

共引文献119

同被引文献160

引证文献14

二级引证文献59

相关作者

相关机构

相关主题

浏览历史

一种基于增量学习型矢量量化的有效文本分类算法 被引量：14

参考文献20

二级参考文献27

共引文献119

同被引文献160

引证文献14

二级引证文献59

相关作者

相关机构

相关主题

浏览历史

一种基于增量学习型矢量量化的有效文本分类算法被引量：14