使用KNN算法的文本分类被引量：96

Text Categorization with KNN Algorithm

下载PDF

导出

摘要介绍了数据挖掘的一个分枝——文本自动分类的相关技术,在对数据进行预处理的基础上,实现了K最近邻居分类算法,并结合实验结果对数据预处理在文本分类中的重要性进行了讨论。 This paper introduces a branch of data mining technology-text categorization, and discusses some related key technologies of text categorization. Based on data preprocess, it implements one algorithm, K nearest neighbor algorithm. In the end, it utilizes the experiment results to prove the importance of data preprocess for clarifying capability.

作者张宁贾自艳史忠植

机构地区中国科技大学研究生院计算机学部中科院计算技术研究所智能信息处理重点实验室

出处《计算机工程》 EI CAS CSCD 北大核心 2005年第8期171-172,185,共3页 Computer Engineering

基金国家自然科学基金资助项目(60173017 9010402) 北京市自然科学基金资助项目(4011003)

关键词数据挖掘文本分类 KNN算法向量空间模型 Data mining Text categorization KNN algorithm VSM

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520. 被引量：275
2Salton G,Lesk M E.Computer Evaluation of Index and Text Processing. Association for Computing Machinery,1968,15(1).
3Maron M E. On Relevance,Probabilistic Indexing and Information Retrieval. Journal of the ACM,1960,7(3).
4Lewis D D. Feature Selection and Feature Extraction for Text Categorization. In Proceedings of Speech and Natural Language Workshop. Defense Advanced Research Projects Agency,Morgan Kaufmann,1992-02:212-217.
5Yang Yiming,Liu Xin. A Re-examination of Text Categorization Methods. Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR),1999:42-49.

二级参考文献4

1Zalane O R，Proc of 1998ACM-SIGMOD Conf onManagement of Data.Seattle，1998年，581页
2Wang Ke，Newport Beach，1997年
3Salton G，Commun ACM，1975年，18卷，5期，613页
4邹涛,王继成,张福炎.基于WWW的资料搜集系统的设计与实现[J].情报学报,1999,18(3):195-201. 被引量：32

共引文献274

1兰晓芳,刘霞,肖毅.基于Django的校友在线平台的设计与实现[J].办公自动化,2021,26(18):17-18. 被引量：3
2王志明,沙莎.Web文本挖掘技术在新闻主题检测中的应用研究[J].长沙大学学报,2007,21(5):58-60. 被引量：2
3张脂平,林世平.Web文本挖掘中特征提取算法的分析及改进[J].福州大学学报（自然科学版）,2004,32(z1):63-66. 被引量：1
4杨斌,孟志青.一种文本分类数据挖掘的技术[J].湘潭大学自然科学学报,2001,23(4):34-37. 被引量：10
5李爱国,白冰.基于内容图像检索的Web搜索器[J].郑州大学学报（理学版）,2009,41(2):60-62. 被引量：1
6周云真,舒建文,王平根.数据挖掘在基于WEB的智能远程教育中的应用[J].文教资料,2006(27):154-155. 被引量：1
7郑泠.Web数据挖掘技术应用[J].科技经济市场,2006(12):302-303.
8姚轶.浅谈网络文本挖掘分类[J].科技风,2009(3). 被引量：1
9周涛,李军,陆惠玲.WEB数据挖掘技术研究[J].汉中师范学院学报,2004,22(3):86-90. 被引量：1
10刘春梅.通用Web日志挖掘系统(CWLMS)设计实现[J].防灾技术高等专科学校学报,2004,6(2):48-52. 被引量：1

同被引文献697

1谭红日,刘沛林,李伯华.基于网络文本分析的大连市旅游目的地形象感知[J].经济地理,2021(3):231-239. 被引量：150
2孙登林,李生红,荆涛,刘功申.一种针对不良主题的文本过滤方法[J].信息安全与通信保密,2008,30(2):92-93. 被引量：4
3张锦,李光,曹伍,胡瑞芬.基于主成分分析的自动文本分类模型[J].北京邮电大学学报,2006,29(z2):136-138. 被引量：3
4吕佳.Web日志挖掘技术应用研究[J].重庆师范大学学报（自然科学版）,2006,23(4):39-44. 被引量：15
5叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报（自然科学版）,2005,45(S1):1818-1822. 被引量：18
6张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：26
7袁方,杨柳,张红霞.基于k-近邻方法的渐进式中文文本分类技术[J].华南理工大学学报（自然科学版）,2004,32(z1):88-91. 被引量：7
8刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
9彭昱忠,元昌安,王艳,覃晓.基于内容理解的不良信息过滤技术研究[J].计算机应用研究,2009,26(2):433-438. 被引量：19
10黄敏,朱晓,朱启兵,冯朝丽.基于高光谱图像的玉米种子特征提取与识别[J].光子学报,2012,41(7):868-873. 被引量：30

引证文献96

1刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
2常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.
3任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
4唐明,张自力.文本挖掘在多文化交流平台中的应用研究[J].西南师范大学学报（自然科学版）,2006,31(3):110-113. 被引量：2
5杨洁,张建忠,申庆永,何云.基于Milter实现的中文垃圾邮件过滤系统[J].计算机工程,2007,33(1):267-270.
6伍建军,康耀红.一种基于特征词聚类的文本分类方法[J].情报理论与实践,2007,30(1):109-111. 被引量：2
7伍建军,康耀红.文本分类中特征选择方法的比较和改进[J].郑州大学学报（理学版）,2007,39(2):110-113. 被引量：16
8葛润霞,刘培玉.基于最近邻聚类的INTERNET信息检索系统[J].信息技术与信息化,2007(1):60-62.
9陈益军.一种基于元数据方法的KNN网页分类器的设计与实现[J].福建电脑,2007(6):137-137.
10伍建军,康耀红.文本分类中特征降维方式的研究[J].海南大学学报（自然科学版）,2007,25(1):62-66. 被引量：4

二级引证文献383

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：6
2张柳艳,聂云峰,段生月,张贵昌.基于堆叠式降噪自编码器的中文垃圾邮件过滤[J].数学的实践与认识,2020,0(1):105-114. 被引量：3
3曹鸿猷,孙文.基于马氏距离及K最近邻算法的结构优化设计[J].武汉理工大学学报,2022,44(10):60-71. 被引量：1
4吕彦红,陈基漓,阮百尧.基于遗传算法的中文自动分类特征选择[J].山东理工大学学报（自然科学版）,2009,23(1):100-102.
5赖苏,熊忠阳,江帆,唐蓉君.利用改进的多项式核函数支持向量机进行文本分类[J].重庆大学学报（自然科学版）,2012,35(S1):41-45. 被引量：2
6刘锋,白凡.一种改进的K近邻算法在网页分类中的应用[J].电子技术（上海）,2010(7):30-31. 被引量：1
7任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
8范婕婷,赖惠成.一种基于SVM算法的垃圾邮件过滤方法[J].计算机工程与应用,2008,44(28):95-97. 被引量：5
9张建兵,戴新宇,陈家骏.文档分类之特征选择方法的实验比较[J].广西师范大学学报（自然科学版）,2008,26(3):181-184. 被引量：6
10陈亮,郑宁,郭艳华,徐明,胡永涛.基于Win32API的未知病毒检测[J].计算机应用,2008,28(11):2829-2831. 被引量：6

1朱红.基于粗集的ID3算法研究[J].湘潭大学自然科学学报,2006,28(1):33-36. 被引量：5
2刘科.基于KNN算法的文本分类[J].科技经济市场,2009(6):12-14. 被引量：3
3葛润霞,刘培玉.基于最近邻聚类的INTERNET信息检索系统[J].信息技术与信息化,2007(1):60-62.
4颜宏文,马瑞,晏弼成.基于信息熵构造判定树的数据挖掘算法的设计与实现[J].计算机工程与应用,2003,39(23):180-182. 被引量：13
5刘雨,景青山.一种用于VOD的推荐系统[J].煤炭技术,2009,28(10):157-158.
6熊忠阳,张凤娟,张玉芳.基于粒子群优化的项聚类推荐算法[J].计算机工程,2009,35(23):178-180. 被引量：6
7吴吉义,林志洁,龚祥国.基于协同过滤的移动电子商务个性化推荐系统若干研究[J].电子技术应用,2007,33(1):5-8. 被引量：8
8王丹.基于分位数概要的KNN算法研究[J].无线互联科技,2015,12(20):115-116.
9朱付保,霍晓齐,徐显景.基于数据挖掘的电力设备状态诊断系统建模[J].中原工学院学报,2015,26(3):85-89. 被引量：4
10张玉娜.基于内容相似性的个性化推荐系统的应用[J].城市建设（下旬）,2010(7):395-396.

计算机工程

2005年第8期

浏览历史

内容加载中请稍等...

使用KNN算法的文本分类被引量：96

参考文献5

二级参考文献4

共引文献274

同被引文献697

引证文献96

二级引证文献383

相关作者

相关机构

相关主题

浏览历史

使用KNN算法的文本分类 被引量：96

参考文献5

二级参考文献4

共引文献274

同被引文献697

引证文献96

二级引证文献383

相关作者

相关机构

相关主题

浏览历史

使用KNN算法的文本分类被引量：96