基于χ~2统计量的kNN文本分类算法被引量：13

A kNN Text Categorization Algorithm Base on Χ^2 Statistic

下载PDF

导出

摘要随着Internet上文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于χ2统计量能很好地体现词和类别之间的相关性,因此成为特征选择中常用的评估函数.本文分析了χ2统计量在特征选择和分类决策阶段的性质,提出了一种新的基于χ2统计量的相似度定义,并结合基于两次类别判定的快速搜索算法,改进了传统的kNN算法.实验结果显示基于χ2统计量的改进kNN文本分类算法能大大减少kNN算法的分类时间,并提高了kNN算法的准确率和召回率. With the rapid development of online information, text classification has become the key technology in processing and organizing large amount of document data. Χ^2 statistic is a widely used evaluation function in feature selection since it measures the lack of independence between a term and a class effectively. This paper proposed a new similarity based on Χ^2 statistic and a hybrid classification mechanism, and then applied them to improve the traditional kNN. Experiments show that the new method can reduce test time greatly and improve the precision and recall compared with traditional kNN. Its performance is higher than traditional kNN and comparable with SVMTorch.

作者印鉴谭焕云

机构地区中山大学计算机科学系

出处《小型微型计算机系统》 CSCD 北大核心 2007年第6期1094-1097,共4页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(60573097)资助广东省自然科学基金项目(05200302 06104916)资助国家科技(2004BA721A02)资助广东省科技计划项目(2005B10101032)资助高等学校博士学科点专项科研基金项目(20050558017)资助.

关键词文本分类特征选择 KNN Χ^2统计量 text categorization feature selection kNN Χ^2 statistic

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13
2陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量：126
3黎铭,薛晓冰,周志华.基于多示例学习的中文Web目录页面推荐[J].软件学报,2004,15(9):1328-1335. 被引量：17
4李荣陆,胡运发.基于密度的kNN文本分类器训练样本裁剪方法[J].计算机研究与发展,2004,41(4):539-545. 被引量：98

二级参考文献18

1[1]D D Lewis. Naive (Bayes) at forty: The independence assumption in information retrieval. In: The 10th European Conf on Machine Learning(ECML98), New York: Springer-Verlag, 1998. 4～15
2[2]Y Yang, X Lin. A re-examination of text categorization methods. In: The 22nd Annual Int'l ACM SIGIR Conf on Research and Development in Information Retrieval, New York: ACM Press, 1999
3[3]Y Yang, C G Chute. An example-based mapping method for text categorization and retrieval. ACM Trans on Information Systems, 1994, 12(3): 252～277
4[4]E Wiener. A neural network approach to topic spotting. The 4th Annual Symp on Document Analysis and Information Retrieval (SDAIR 95), Las Vegas, NV, 1995
5[5]R E Schapire, Y Singer. Improved boosting algorithms using confidence-rated predications. In: Proc of the 11th Annual Conf on Computational Learning Theory. Madison: ACM Press, 1998. 80～91
6[6]T Joachims. Text categorization with support vector machines: Learning with many relevant features. In: The 10th European Conf on Machine Learning (ECML-98). Berlin: Springer, 1998. 137～142
7[7]S O Belkasim, M Shridhar, M Ahmadi. Pattern classification using an efficient KNNR. Pattern Recognition Letter, 1992, 25(10): 1269～1273
8[8]V E Ruiz. An algorithm for finding nearest neighbors in (approximately) constant average time. Pattern Recognition Letter, 1986, 4(3): 145～147
9[9]P E Hart. The condensed nearest neighbor rule. IEEE Trans on Information Theory, 1968, IT-14(3): 515～516
10[10]D L Wilson. Asymptotic properties of nearest neighbor rules using edited data. IEEE Trans on Systems, Man and Cybernetics, 1972, 2(3): 408～421

共引文献246

1姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
2郑凌铭,舒胜文,陈彬,吴涵,黄建业,钱健.强台风环境下基于格点化和支持向量机的10 kV杆塔受损量预测方法[J].高电压技术,2020,46(1):42-51. 被引量：11
3陈丹雯,徐建军,谢毓湘,吴玲达.虚拟新闻自动生成系统的设计与实现[J].系统仿真学报,2006,18(z1):157-160.
4赵燕平,李超.网络安全信息挖掘中的特征选择与专利分析研究[J].中国管理科学,2004,12(z1):514-518. 被引量：3
5徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
6姜澜,李秀坤,单丽莉.一种新的词语权重计算方法[J].哈尔滨工业大学学报,2011,43(S1):315-318. 被引量：1
7李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
8施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.
9李国臣,段建勇.基于语法语义信息量化模型的语素字再分类[J].计算机工程,2004,30(11):37-39.
10鲁明羽,张红,付克明,陆玉昌.Web ME——一个大型网络挖掘环境系统[J].哈尔滨工业大学学报,2004,36(9):1164-1167. 被引量：1

同被引文献96

1李锋刚,倪志伟,杨善林,黄玲.案例推理中属性约简及其性能评价[J].清华大学学报（自然科学版）,2006,46(z1):1025-1029. 被引量：12
2邱江涛,唐常杰,乔少杰,段磊,刘齐宏.基于加权频繁项集的文本分类规则挖掘[J].四川大学学报（工程科学版）,2008,40(6):110-114. 被引量：3
3李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13
4徐明,胡守仁.基于事例推理的检索模型研究[J].计算机科学,1993,20(4):32-35. 被引量：32
5李祚泳.投影寻踪技术及其应用进展[J].自然杂志,1997,19(4):224-227. 被引量：98
6李青,焦李成,周伟达.基于向量投影的支撑向量预选取[J].计算机学报,2005,28(2):145-152. 被引量：37
7王元珍,钱铁云,冯小年.基于关联规则挖掘的中文文本自动分类[J].小型微型计算机系统,2005,26(8):1380-1383. 被引量：13
8李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：113
9申红,吕宝粮,内山将夫,井佐原均.文本分类的特征提取方法比较与改进[J].计算机仿真,2006,23(3):222-224. 被引量：28
10苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：378

引证文献13

1孙蕾,李军怀.一种基于正交法和扩展卡方检验的关联分类算法[J].计算机应用,2008,28(7):1692-1695. 被引量：1
2许幸,张启蕊.基于KNN算法的医药信息文本分类系统的研究[J].计算机技术与发展,2009,19(4):206-209. 被引量：6
3张成彬,唐建.基于互信息最大化和特征聚类的特征选择[J].现代计算机,2009,15(8):31-33. 被引量：1
4卜凡军,钱雪忠.基于向量投影的KNN文本分类算法[J].计算机工程与设计,2009,30(21):4939-4941. 被引量：10
5刘海峰,张学仁,姚泽清,刘守生.基于类别选择的改进KNN文本分类[J].计算机科学,2009,36(11):213-216. 被引量：9
6赵俊杰,盛剑锋,陶新民.一种基于特征加权的KNN文本分类算法[J].电脑学习,2010(2):84-86. 被引量：4
7杜琳娜,闫光辉,杨霞霞,刘利松.一种改进的KNN中文文本分类算法[J].软件导刊,2010,9(2):51-53. 被引量：2
8兰均,施化吉,李星毅,徐敏.基于特征词复合权重的关联网页分类[J].计算机科学,2011,38(3):187-190. 被引量：12
9刘海峰,庞秀梅,张学仁.一种聚类模式下基于密度的改进KNN算法[J].微电子学与计算机,2011,28(7):125-127. 被引量：5
10周靖,刘晋胜.采用特征相关性差异优化距离的改进k近邻算法[J].计算机工程与设计,2011,32(9):3178-3181.

二级引证文献60

1李湘东,徐朋,黄莉,沈祥兴.基于KNN算法的文本自动分类方法研究——以学术期刊栏目自动归类为例[J].图书情报知识,2010,27(4):71-76. 被引量：6
2胡泽文,王效岳,白如江.国内外文本分类研究计量分析与综述[J].图书情报工作,2011,55(6):78-81. 被引量：16
3周靖,刘晋胜.特征联合熵的一种改进K近邻分类算法[J].计算机应用,2011,31(7):1785-1788. 被引量：8
4张健飞,陈黎飞,郭躬德,李南.多代表点的子空间分类算法[J].计算机科学与探索,2011,5(11):1037-1047. 被引量：6
5赵静,刘培玉,许明英.邮件过滤中特征选择方法的性能评价与分析[J].计算机应用研究,2012,29(2):693-697. 被引量：7
6姚双良,鞠时光.Deep Web数据源分类模型研究[J].江苏科技大学学报（自然科学版）,2012,26(1):45-49.
7黄莉,李湘东.基于《中图法》的自动分类研究现状与展望[J].图书情报知识,2012,29(4):30-36. 被引量：7
8黄莉,李湘东.两种相似度计算方法对KNN分类效果的影响研究[J].情报杂志,2012,31(7):177-181. 被引量：5
9苟和平,景永霞,冯百明,李勇.一种基于粗糙集的改进KNN文本分类算法[J].科学技术与工程,2012,20(20):4926-4929. 被引量：3
10范仕伦,薛天俊,夏玮.基于贝叶斯算法和费舍尔算法的垃圾邮件过滤系统设计与实现[J].信息网络安全,2012(9):18-22. 被引量：11

1李明杰.特征抽取方法在网页分类中的应用[J].常熟理工学院学报,2005,19(4):106-108. 被引量：1
2刘海峰,姚泽清,刘守生,苏展.基于聚类降维的改进KNN文本分类[J].微计算机信息,2010,26(3):18-20. 被引量：2
3王煜,王正欧.基于模糊决策树的文本分类规则抽取[J].计算机应用,2005,25(7):1634-1637. 被引量：13
4邱宁佳,郭畅,杨华民,王鹏,温暖.基于MapReduce编程模型的改进KNN分类算法研究[J].长春理工大学学报（自然科学版）,2017,40(1):110-114. 被引量：3
5杜琳娜,闫光辉,杨霞霞,刘利松.一种改进的KNN中文文本分类算法[J].软件导刊,2010,9(2):51-53. 被引量：2
6王振海.融合奇异值分解和最大间距准则的人脸识别方法[J].计算机工程与应用,2011,47(8):164-166. 被引量：5
7路永和,何新宇.基于维度索引表的改进KNN分类算法[J].情报理论与实践,2014,37(5):102-106. 被引量：3
8赵健,王晓龙,关毅,徐志明.中文名实体识别：基于词触发对的条件随机域方法[J].高技术通讯,2006,16(8):795-801. 被引量：3
9王涛,裘国永,何聚厚,张娇艳.Naive Bayes邮件过滤模型的特征词选取方法研究[J].航空计算技术,2008,38(2):131-134. 被引量：1
10古丽娜孜,孙铁利,胡西旦,伊力亚尔,库瓦特拜克.一种基于改进KNN的哈萨克语文本分类[J].东北师大学报（自然科学版）,2014,46(2):63-68. 被引量：4

小型微型计算机系统

2007年第6期

浏览历史

内容加载中请稍等...

基于χ~2统计量的kNN文本分类算法被引量：13

参考文献4

二级参考文献18

共引文献246

同被引文献96

引证文献13

二级引证文献60

相关作者

相关机构

相关主题

浏览历史

基于χ~2统计量的kNN文本分类算法 被引量：13

参考文献4

二级参考文献18

共引文献246

同被引文献96

引证文献13

二级引证文献60

相关作者

相关机构

相关主题

浏览历史

基于χ~2统计量的kNN文本分类算法被引量：13