基于KNN和SVM的中文文本自动分类研究被引量：10

Reseach on Automatic Classification for Chinese Text Based on KNN and SVM

导出

摘要借助文本分类系统软件,采用来自10个大类的中文文本数据,按照训练集与测试集2:1的比例,使用KNN和SVM分类算法,对数据集进行自动分类的实验。旨在通过具体的语料库实验,探讨文本自动分类的关键技术,分析、比较与评价实验结果,探讨文本分类中具体参数的设置和不同分类算法之优劣。 This paper describes the experimental process of automatic text categorization. The experiment chooses Chinese text data sets from 10 categories,and distributes the training set and test set based on the ratio of 1：2. With the help of text automatic classification system software,the experiment does automatic classification based on algorithms of KNN and SVM,in order to compare different classification algorithms and explore key technologies of text classification.

作者张野杨建林

机构地区南京大学信息管理系

出处《情报科学》 CSSCI 北大核心 2011年第9期1313-1317,1377,共6页 Information Science

基金国家社会科学基金项目(09BTQ020)

关键词自动分类 KNN SVM 中文信息处理 automatic classification KNN SVM Chinese information process

分类号 G350 [文化科学—情报学]

引文网络
相关文献

参考文献7

1苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
2Sebastiani F. Machine learning in automated text categorization[J]. ACM Computing Surveys, 2002,34(1): 1-47.
3庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：293
4Yiming Yang, Xin Liu. A re-examination of text categorization methods. Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'99)[EB/OL]. http://portal.acm.org/citation.cfm?id=312624.312647,2011- 03-21.
5周钦强,孙炳达,王义.文本自动分类系统文本预处理方法的研究[J].计算机应用研究,2005,22(2):85-86. 被引量：15
6代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：228
7Sahon G,Wong A,Yang CS.A vector space model for automatic indexing[J].Communications of ACM, 1975,18(5):613-620.

二级参考文献22

1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
3黄萱青吴立德.独立于语种的文本分类方法[M].,2000.37-43.
4鲁松白硕等.文本中词语权重计算方法的改进[M].,2000.31-36.
5卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用：博士论文[M].,2000..
6黄昌宁等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
7Kjersti Aas,et al. Text Classification: A Survey[ M]. 1999.
8Yiming Yang. An Evaluation of Statistical Approaches to Text Categorization[ J]. Information Retrieval, 1999,1 ( 1/2 ) :67-88.
9Yiming Yang, Xin Liu. A Re-Examination of Text Categorization Methods[ C]. Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR) , 1999. 42-49.
10黄萱菁，2000 International Conference on Multilingual Information Processing，2000年，37页

共引文献883

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
2骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
3李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：6
4姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
5张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
6安艳辉,董五洲,游自英.基于改进的朴素贝叶斯文本分类研究[J].河北省科学院学报,2007,24(1):22-25. 被引量：7
7蒋英华.利用数据挖掘算法实现一个XML文档分类器[J].科技资讯,2005,3(25):66-70.
8张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
9李粤,安捷,李星.排序融合算法在校园网搜索引擎中的应用[J].大连理工大学学报,2005,45(z1):257-260. 被引量：2
10蒋宗礼,肖华,赵钦.WebSifter:个性化网络搜索辅助系统[J].清华大学学报（自然科学版）,2005,45(S1):1903-1907. 被引量：5

同被引文献114

1赵薇.数字时代人文学研究的变革与超越——数字人文在中国[J].探索与争鸣,2021(6):191-206. 被引量：32
2江荻.西藏的语言多样性及其分类[J].中国藏学,2022(6):150-160. 被引量：2
3熊亚军,廖晓农,李梓铭,张小玲,孙兆彬,赵秀娟,赵普生,马小会,蒲维维.KNN数据挖掘算法在北京地区霾等级预报中的应用[J].气象,2015,41(1):98-104. 被引量：53
4宋枫溪,高林.文本分类器性能评估指标[J].计算机工程,2004,30(13):107-109. 被引量：33
5包剑,冀常鹏,李义杰.基于矢量空间模型的文本自动分类系统研究[J].计算机系统应用,2005,14(3):47-49. 被引量：6
6翟林,刘亚军.支持向量机的中文文本分类研究[J].计算机与数字工程,2005,33(3):21-23. 被引量：14
7周俊生,戴新宇,尹存燕,陈家骏.自然语言信息抽取中的机器学习方法研究[J].计算机科学,2005,32(3):186-189. 被引量：8
8黄爱平.纪昀与《四库全书》[J].安徽史学,2005(4):33-39. 被引量：9
9陈立孚,周宁,李丹.基于机器学习的自动文本分类模型研究[J].现代图书情报技术,2005(10):23-27. 被引量：9
10LIU Meiqin.Discrete-time delayed standard neural network model and its application[J].Science in China(Series F),2006,49(2):137-154. 被引量：14

引证文献10

1钱强,庞林斌,高尚.一种基于改进型KNN算法的文本分类方法[J].江苏科技大学学报（自然科学版）,2013,27(4):381-385. 被引量：3
2王昊,叶鹏,邓三鸿.机器学习在中文期刊论文自动分类研究中的应用[J].现代图书情报技术,2014(3):80-87. 被引量：30
3朱贺军.基于规则的互联网海量短文本的分类挖掘[J].中国西部科技,2015,14(6):10-11.
4李湘东,潘练.LDA模型下文本自动分类算法比较研究——基于网页和图书期刊等数字文本资源的对比[J].信息资源管理学报,2015,5(4):24-31. 被引量：5
5伍永豪,柯赟,杨华勇.基于多类别相关度的潜在语义挖掘算法[J].计算机工程与设计,2016,37(7):1817-1821.
6万会芳,杜彦璞.K近邻和Logistic回归分类算法比较研究[J].洛阳理工学院学报（自然科学版）,2016,26(3):83-86. 被引量：5
7周巧扣,倪红军.一种基于语义的垃圾短信过滤算法[J].实验室研究与探索,2016,35(11):137-140. 被引量：1
8郭利敏.基于卷积神经网络的文献自动分类研究[J].图书与情报,2017(6):96-103. 被引量：30
9陈杰,马静,李晓峰.融合预训练模型文本特征的短文本分类方法[J].数据分析与知识发现,2021,5(9):21-30. 被引量：9
10左亮,赵志枭,王东波.基于大语言模型的《四库全书》自动分类研究[J].信息资源管理学报,2024,14(5):23-35.

二级引证文献73

1王君泽,詹若贤,李怡,杜洪涛.融合主题与细粒度情感特征的气候变化微博舆情分析研究[J].信息技术与管理应用,2023(4):87-104. 被引量：1
2程勇,徐德宽,吕学强.基于层级交互网络的文本阅读理解与问答方法研究[J].数据分析与知识发现,2018,2(12):23-32. 被引量：1
3马宾,殷立峰.一种基于Hadoop平台的并行朴素贝叶斯网络舆情快速分类算法[J].现代图书情报技术,2015(2):78-84. 被引量：16
4甘守飞.基于改进kNN算法的人脸识别研究[J].佛山科学技术学院学报（自然科学版）,2015,33(3):52-55. 被引量：4
5李湘东,巴志超,高凡.数字文本自动分类中特征语义关联及加权策略研究综述与展望[J].现代图书情报技术,2016(9):17-26. 被引量：5
6韦泽鲲,夏靖波,付凯,申建,陈珍.并行MapReduce模型下的一种改进型KNN分类算法[J].空军工程大学学报（自然科学版）,2017,18(1):92-98. 被引量：2
7耿思,李宁,赵林.参考文献格式规范性检测方法研究[J].北京信息科技大学学报（自然科学版）,2017,32(1):44-49.
8李湘东,丁丛,高凡.基于复合加权LDA模型的书目信息分类方法研究[J].情报学报,2017,36(4):352-360. 被引量：14
9尹绍锋,郑蕙,徐少华,荣辉桂,张娜.一种基于特征库投影的文本分类算法[J].中南大学学报（自然科学版）,2017,48(7):1782-1789. 被引量：1
10叶晓波,秦海菲.Newton-Raphson算法Logistic分类器性能提升应用研究[J].软件导刊,2017,16(11):141-143. 被引量：3

1张春红,谢卫.基于SVM-KNN算法的特色数据库分类体系初探[J].情报科学,2009,27(11):1688-1691. 被引量：1
2王进常,张玉梅.《中文核心期刊要目总览》2004年版与2000年版的比较与评价[J].中国科技期刊研究,2005,16(3):341-343. 被引量：1
3马桂艳,任海生,尚海永.我国政府信息资源开发模式比较与评价研究[J].唐山师范学院学报,2010,32(2):153-155. 被引量：1
4解军,邢进生.基于KNN算法的新浪微博用户行为分析及预测[J].山西师范大学学报（自然科学版）,2016,30(2):38-45. 被引量：4
5许凡,施国良.新型微博分析工具的综合比较与评价[J].图书馆论坛,2015,35(1):87-92. 被引量：1
6井超,陈立潮.机器学习在科技成果评估专家系统中的应用[J].科技情报开发与经济,2006,16(7):175-176.
7李湘东,胡逸泉,巴志超,黄莉.数字图书馆多种类型文献混合自动分类研究[J].图书馆杂志,2014,33(11):42-48. 被引量：8
8孙兰荣.MARC与DC的比较与评价[J].情报杂志,2004,23(8):126-127. 被引量：4
9高媛,刘大中.中文文本分类方法比较研究[J].科技信息,2008(2):7-8. 被引量：2
10杨建良,王永成.基于KNN与自动检索的迭代近邻法在自动分类中的应用[J].情报学报,2004,23(2):137-141. 被引量：18

情报科学

2011年第9期

浏览历史

内容加载中请稍等...

基于KNN和SVM的中文文本自动分类研究被引量：10

参考文献7

二级参考文献22

共引文献883

同被引文献114

引证文献10

二级引证文献73

相关作者

相关机构

相关主题

浏览历史

基于KNN和SVM的中文文本自动分类研究 被引量：10

参考文献7

二级参考文献22

共引文献883

同被引文献114

引证文献10

二级引证文献73

相关作者

相关机构

相关主题

浏览历史

基于KNN和SVM的中文文本自动分类研究被引量：10