基于主成分分析和KNN混合方法的文本分类研究被引量：4

Research on Text Classification method Based on PCA and KNN

下载PDF

导出

摘要特征选择和分类算法是文本分类中的两个关键技术,提出了基于主成分分析和KNN相结合的文本分类方法。该方法利用主成分分析对文本向量的高维空间进行特征选择,为克服因类别特征选择不当带来的不利影响,使用KNN算法进行分类可以最大程度地减少分类过程中的误差。为了验证方法的有效性,针对UCI标准数据集进行仿真实验。实验结果显示,PCA-KNN方法优于主成分分析和随机森林相结合的方法,能在一定程度上提高文本分类的精度。 Feature extraction and categorization algorithm are two crucial technologies for text classification. A text classification method based on PCA and KNN was presented. The proposed method use PCA to select fea-ture of the text vector from multi-dimension space. In order to overcome the negative influence for the improper category feature selection,the classification method KNN can minimize the error of the classification results. Some experiments are executed on the UCI standard data sets to demonstrate the advantages of the proposed method. The results show that PCA-KNN method is better than the method based on PCA and random forests and can improve the accuracy of text classification.

作者郭新辰李成龙樊秀玲

机构地区东北电力大学理学院

出处《东北电力大学学报》 2013年第6期60-63,共4页 Journal of Northeast Electric Power University

基金国家自然科学基金项目(11226263 11201057 61202261) 吉林省自然科学基金项目(201215165)

关键词主成分分析降维 KNN算法文本分类 PCA Dimensionality reduction KNN Text classification

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1T Sergios, K Konstantinos. Pattern Recognition. Third Edition [ M ]. Amsterdam, Bostou : Academic Press,2007.
2张锦,李光,曹伍,胡瑞芬.基于主成分分析的自动文本分类模型[J].北京邮电大学学报,2006,29(z2):136-138. 被引量：3
3黎超,吴义国,魏星.基于主成分分析的SMO文本分类[J].现代计算机,2011,17(10):18-21. 被引量：2
4杨俊,陈贤富.基于KPCA和RBF网络的文本分类研究[J].微电子学与计算机,2010,27(3):122-125. 被引量：12
5Y Yang, X Lin. A re-examination of text categorization methods[ J]. In:Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, New York : ACM Press, 1999:42 - 49.
6Y Yang. An evaluation of statistical approaches to text categorization [ J]. Information Retrieval, 1999,1 (1) :76 -88.
7D.MChristopher,RPrabhakar,SHinrich.信息检索导论[M].王斌,译.北京:人民邮电出版社,2010.
8K Aas, L Eikvil. Text Categorization : A Survey [ R ]. Oslo, Norway : Norwegian Computing Center [ R ], Tech Rep : NR941,1999.
9G Salton,T Y Clement. On the Construction of Effective Vocabularies for Information Retrieval [ C ]. Proc of 1973 Meeting on Programming Languages and Information Retrieval, New York, USA : ACM Press, 1973.
10P. Soucy, G. W. Mineau. A Simple KNN Algorithm for Text Categorization [ C ]. Data Mining, 2001. ICDM 2001, Proceedings IEEE Interna- tional Conference on ,2001:647 - 648.

二级参考文献42

1王俊英,郭景峰,霍峥.中文文本分类系统的设计与实现[J].微电子学与计算机,2006,23(z1):262-265. 被引量：3
2罗毓珊,李爱华,陈听宽,杜社教.差压法测量两相流相含率的研究[J].工程热物理学报,2004,25(5):789-792. 被引量：15
3李青,焦李成,周伟达.基于向量投影的支撑向量预选取[J].计算机学报,2005,28(2):145-152. 被引量：37
4张宝芬,董宇峰.工业用电容式两相流相浓度传感器[J].清华大学学报（自然科学版）,1994,34(4):102-106. 被引量：6
5曹淑娟,刘小茂,张钧,刘振丙.基于类中心思想的去边缘模糊支持向量机[J].计算机工程与应用,2006,42(22):146-149. 被引量：8
6苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：389
7黄萱青吴立德.独立于语种的文本分类方法[M].,2000.37-43.
8鲁松白硕等.文本中词语权重计算方法的改进[M].,2000.31-36.
9卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用：博士论文[M].,2000..
10Yang Y, Pedersen J O. A comparative study on feature selection in text categorization[C]//Proceedings of the 14th ICML. USA: Nashville 1997 : 412 - 420.

共引文献309

1安艳辉,董五洲,游自英.基于改进的朴素贝叶斯文本分类研究[J].河北省科学院学报,2007,24(1):22-25. 被引量：7
2蒋英华.利用数据挖掘算法实现一个XML文档分类器[J].科技资讯,2005,3(25):66-70.
3李粤,安捷,李星.排序融合算法在校园网搜索引擎中的应用[J].大连理工大学学报,2005,45(z1):257-260. 被引量：2
4蒋宗礼,肖华,赵钦.WebSifter:个性化网络搜索辅助系统[J].清华大学学报（自然科学版）,2005,45(S1):1903-1907. 被引量：5
5孔颖,裘彬强,徐从富.基于CART算法的垃圾邮件过滤模型设计与实现[J].计算机应用,2009,29(2):374-376. 被引量：4
6杨俊,廖闻剑,彭艳兵.一种中文文本聚类算法的研究[J].硅谷,2009,2(5):68-69.
7李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
8陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2
9邵晓良,刘红.Web信息采集中军事主题信息的识别[J].情报杂志,2004,23(7):14-16. 被引量：2
10施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.

同被引文献26

1张锦,李光,曹伍,胡瑞芬.基于主成分分析的自动文本分类模型[J].北京邮电大学学报,2006,29(z2):136-138. 被引量：3
2孙锐,石金涛.基于因子和聚类分析的区域创新能力再评价[J].科学学研究,2006,24(6):985-990. 被引量：46
3杨宗凯.小波去噪及其在信号检测中的应用[J].华中理工大学学报,1997,25(2):1-4. 被引量：48
4Jieming Yang,Yuanning Liu,Zhen Liu,Xiaodong Zhu,Xiaoxu Zhang.A new feature selection algorithm based on binomial hypothesis testing for spam filtering[J].Knowledge-Based Systems.2011(6)
5Hiroshi Ogura,Hiromi Amano,Masato Kondo.Feature selection with a measure of deviations from Poisson in text categorization[J].Expert Systems With Applications.2008(3)
6Wenqian Shang,Houkuan Huang,Haibin Zhu,Yongmin Lin,Youli Qu,Zhihai Wang.A novel feature selection algorithm for text categorization[J].Expert Systems With Applications.2006(1)
7Zhiping Chen,Kevin Lü.A preprocess algorithm of filtering irrelevant information based on the minimum class difference[J].Knowledge-Based Systems.2006(6)
8Dimitris Fragoudis,Dimitris Meretakis,Spiridon Likothanassis.Best terms: an efficient feature-selection algorithm for text categorization[J].Knowledge and Information Systems.2005(1)
9Le Zhang,Jingbo Zhu,Tianshun Yao.An evaluation of statistical spam filtering techniques[J].ACM Transactions on Asian Language Information Processing (TALIP).2004(4)
10Avrim L. Blum,Pat Langley.Selection of relevant features and examples in machine learning[J].Artificial Intelligence.1997(1)

引证文献4

1史淼,刘锋.基于PCA和kNN混合算法的文本分类方法[J].电脑知识与技术,2015,0(4):169-171. 被引量：4
2韩玉,党宏鹏,朱猛.加权主成分距离聚类分析方法的有效性[J].东北电力大学学报,2018,38(4):94-98. 被引量：2
3杨杰明,王静,曲朝阳.基于相对贡献率的特征选择方法[J].东北电力大学学报,2014,34(4):62-68. 被引量：5
4邵颖丽,王瑞莲.主成分分析在提取周期性信号中的应用[J].内蒙古农业大学学报（自然科学版）,2020(3):80-83.

二级引证文献11

1刘小敏,王昊,李心蕾,邓三鸿.不同特征粒度在微博短文本分类中作用的比较研究[J].情报科学,2018,36(12):126-133. 被引量：10
2任军,葛卫丽,陈家勇.一种基于类差分度的互信息特征选择方法[J].中国科技论文,2015,10(20):2386-2389. 被引量：2
3鄢梦迪,秦琳琳,吴刚.基于主成分分析和K近邻的文件类型识别算法[J].计算机应用,2016,36(11):3161-3164. 被引量：3
4杨杰明,吴启龙,曲朝阳,杨烁,阚中峰,高冶.MapReduce框架下基于抽样的分布式K-Means聚类算法[J].吉林大学学报（理学版）,2017,55(1):109-115. 被引量：6
5杨杰明,吴启龙,曲朝阳,张慧莉,蔺洪文,吕正卓.一种基于扩展区域查询的密度聚类算法[J].计算机应用研究,2017,34(10):2938-2941.
6孙逸,安博文,朱昌明.基于PCA和改进的KNN算法的船舶尾气识别算法[J].现代计算机,2018,24(10):3-7. 被引量：3
7杨杰明,闫欣,曲朝阳,宋晨晨,乔媛媛.基于数据密度分布的欠采样方法研究[J].计算机应用研究,2016,33(10):2997-3000. 被引量：14
8李诗瑶.主成分分析法在商品分类指标体系构建中的应用[J].计算机与数字工程,2019,47(5):1091-1094. 被引量：2
9韩玉,党宏鹏,田宝成.对数自回归条件久期模型的残差自相关性分析[J].东北电力大学学报,2019,39(3):92-96. 被引量：2
10黄细凤.基于聚类的文本分类算法框架研究[J].计算机与数字工程,2021,49(1):21-25.

1邵林昌.基于混合方法的人脸检测综述[J].濮阳职业技术学院学报,2005,18(4):13-14.
2图们月长圆.活用PS图层混合模式[J].电脑应用文萃,2006(5):90-90.
3张枝令.结构化数据及非结构化数据的分类方法[J].宁德师专学报（自然科学版）,2007,19(4):417-420. 被引量：14
4陈祎荻,秦玉平.基于机器学习的文本分类方法综述[J].渤海大学学报（自然科学版）,2010,31(2):201-205. 被引量：12
5崔彩霞,王素格.基于粗集的支持向量机文本分类方法研究[J].科技广场,2006(8):4-6. 被引量：1
6崔彩霞,张朝霞.文本分类方法对比研究[J].太原师范学院学报（自然科学版）,2007,6(4):52-54. 被引量：5
7杨丽华,戴齐,杨占华.文本分类技术研究[J].微计算机信息,2006(05X):209-211. 被引量：13
8张爱科,符保龙,李辉.基于改进的模糊聚类RBF网络集成的文本分类方法[J].四川大学学报（自然科学版）,2012,49(6):1235-1239. 被引量：5
9闭小梅,闭瑞华.KNN算法综述[J].科技创新导报,2009,6(14):31-31. 被引量：36
10王斌,赵智超,邵华清.文本分类算法研究[J].计算机光盘软件与应用,2011(12):117-117.

东北电力大学学报

2013年第6期

浏览历史

内容加载中请稍等...

基于主成分分析和KNN混合方法的文本分类研究被引量：4

参考文献12

二级参考文献42

共引文献309

同被引文献26

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于主成分分析和KNN混合方法的文本分类研究 被引量：4

参考文献12

二级参考文献42

共引文献309

同被引文献26

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于主成分分析和KNN混合方法的文本分类研究被引量：4