基于向量空间模型的文本分类系统的研究与实现被引量：43

Research and Implementation of Text Classification System Based on VSP

下载PDF

导出

摘要文本分类是信息处理的一个重要的研究课题 ,它可以有效的解决信息杂乱的现象并有助于定位所需的信息。本文综合考虑了频度、分散度和集中度等几项测试指标 ,提出了一种新的特征抽取算法 ,克服了传统的从单一或片面的测试指标进行特征抽取所造成的特征“过度拟合”问题 ,并基于此实现了二级分类模式的文本分类系统。和类中心分类法相比 ,实验结果表明二级分类模式具有较高的精度和召回率。 Text classification is an important research task of natural language processing, which can efficiently resolve the issue of information chaos and help to locate the required information. The traditional approaches of text classification commonly extract feature terms from a single test criterion, which will lead to the problem of “over fitting'. This paper comprehensively takes test criterions such as frequency, distribution and concentration into account and proposes a new arithmetic of feature extraction and implements text classification system with two-level mode. The experimental results show that two-level classification mode has higher classification precision and recall compared with center classification method.

作者陈治纲何丕廉孙越恒郑小慎

机构地区天津大学电子信息工程学院

出处《中文信息学报》 CSCD 北大核心 2005年第1期36-41,共6页 Journal of Chinese Information Processing

基金天津市科技发展计划项目 (0 2 310 0 5 11)

关键词计算机应用中文信息处理文本分类测试指标特征抽取二级分类模式 computer application Chinese information processing text classification test criterion feature extraction two-level classification mode

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1Yiming Yang, An evaluation of statistical approaches to text categorization[J]. In:Journal of Information Retrieval,1999,1(2) :67 - 88.
2Jian-yun Nie, Jianfeng Gao etc. On the Use of Words and N-grams for Chinese Information Retrieval[A]. Fifth International Workshop on Information Retrieval with Asian Languages [ C ]. Hong Kong, September 30 - October 1,2000.

同被引文献341

1刘苏文,邵一帆,钱龙华.基于联合学习的生物医学因果关系抽取[J].中文信息学报,2020,34(4):60-68. 被引量：8
2胡涛,路红英.基于Nutch的搜索引擎的研究[J].计算机时代,2007(1):57-59. 被引量：16
3张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：26
4刘海峰,姚泽清,汪泽焱,张学仁.基于位置的文本特征加权方法研究[J].微电子学与计算机,2009,26(2):188-192. 被引量：9
5郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
6冉永平.话语标记语的语用学研究综述[J].外语研究,2000,17(4):8-14. 被引量：446
7陶红印.试论语体分类的语法学意义[J].当代语言学,1999,1(3):15-24. 被引量：208
8王维成.现代汉语语体的分类问题[J].华南师范大学学报（社会科学版）,1987(4):97-102. 被引量：7
9袁晖.论语体划分的原则[J].江淮论坛,1990(4):99-105. 被引量：4
10何春阳,史培军,李景刚,潘耀忠,陈晋.中国北方未来土地利用变化情景模拟[J].地理学报,2004,59(4):599-607. 被引量：105

引证文献43

1陆亮,孔芳.面向对话的融入交互信息的实体关系抽取[J].中文信息学报,2021,35(8):82-88. 被引量：3
2吕彦红,陈基漓,阮百尧.基于遗传算法的中文自动分类特征选择[J].山东理工大学学报（自然科学版）,2009,23(1):100-102.
3刘海峰,王元元,王倩.基于特征选择的文本分类方法评述[J].情报科学,2007,25(z1):193-196.
4吕德新,张桂平,蔡东风,朱江涛.基于SVM的疑问句问点语义角色标注[J].沈阳航空工业学院学报,2006,23(1):44-46. 被引量：4
5陈志雄,陈健,闵华清.基于信息增益的中文文本关联分类[J].中文信息学报,2007,21(3):61-68. 被引量：1
6王晓霞,尹四清.一种基于支持向量机的分类算法[J].山西电子技术,2007(3):17-18. 被引量：2
7LI Yanling,DAI Guanzhong,ZHU Yehang,QIN Sen.A High-Performance Extraction Method for Public Opinion on Internet[J].Wuhan University Journal of Natural Sciences,2007,12(5):902-906. 被引量：3
8刘海峰,王元元,张学仁.文本分类中一种改进的特征选择方法[J].情报科学,2007,25(10):1534-1537. 被引量：9
9李艳玲,戴冠中,朱烨行.基于类别空间模型的文本倾向性分类方法[J].计算机应用,2007,27(9):2194-2196. 被引量：12
10周凯,李芳,盛焕烨.基于向量空间模型的中文搜索引擎评测系统研究与实现[J].计算机应用研究,2007,24(12):16-19. 被引量：3

二级引证文献209

1孙源,胡志军.基于高频词和AUC优化的随机森林文本分类模型[J].数学的实践与认识,2020,0(1):10-15. 被引量：2
2骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
3成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
4黄永文,何中市,伍星.用户评论的分类获取[J].计算机应用,2009,29(3):846-848. 被引量：5
5何忠育,王勇,王瑛,陈新,廖朝辉.基于分布式计算的网络舆情分析系统的设计[J].警察技术,2010(3):19-22. 被引量：6
6田冬阳.一种基于改进支持向量机的文本倾向性分类算法[J].微型电脑应用,2011(3):34-37. 被引量：3
7李艳玲,戴冠中,覃森.快速的文本倾向性分类方法(英文)[J].电子科技大学学报,2007,36(6):1232-1236. 被引量：2
8于海,陈海雷,左万利.小生境免疫算法在中文文本聚类中的应用[J].广西师范大学学报（自然科学版）,2008,26(1):216-219. 被引量：2
9薛晓飞,张永奎,任晓东.基于新闻要素的新事件检测方法研究[J].计算机应用,2008,28(11):2975-2977. 被引量：8
10丁伟伟,常宝宝.基于最大熵原则的汉语语义角色分类[J].中文信息学报,2008,22(6):20-26. 被引量：11

1吕佳.基于改进分类模型的文本分类系统实现[J].重庆师范大学学报（自然科学版）,2009,26(2):79-83. 被引量：3
2刘子良,田永先.一种文本分类数据挖掘的技术[J].计算机与信息技术,2006(8):22-23.
3石常海,王利人.浅议以太网基本性能测试指标及相应的测试方法[J].网络安全技术与应用,2011(8):62-64. 被引量：2
4饶建农,汤杰,熊淑梅,刘桂梅.GUI软件的自动化测试[J].电脑知识与技术（过刊）,2014,20(1X):298-300.
5邓丽娜.实用电子商务网站的建立[J].科技风,2013(15):202-202.
6张玉芳,万斌候,熊忠阳.文本分类中的特征降维方法研究[J].计算机应用研究,2012,29(7):2541-2543. 被引量：36
7吴文钰.关于计算机系统体系结构分类法完备性的研究[J].福州大学学报（自然科学版）,1991,19(4):23-26. 被引量：1
8周建钦.一次到位分类法[J].计算机应用研究,1989,6(2):11-11.
9金民锁,孙秀娟,朱单.基于数据挖掘的异常模式入侵检测系统的设计[J].沈阳航空工业学院学报,2008,25(5):78-80. 被引量：2
10Zheli Liu Shuming Wang Yongjian Yang Xuiqin Yu.A Distributed Model of WebGIS Based on Java Servlett[J].通讯和计算机（中英文版）,2006,3(7):49-53. 被引量：1

中文信息学报

2005年第1期

浏览历史

内容加载中请稍等...

基于向量空间模型的文本分类系统的研究与实现被引量：43

参考文献2

同被引文献341

引证文献43

二级引证文献209

相关作者

相关机构

相关主题

浏览历史

基于向量空间模型的文本分类系统的研究与实现 被引量：43

参考文献2

同被引文献341

引证文献43

二级引证文献209

相关作者

相关机构

相关主题

浏览历史

基于向量空间模型的文本分类系统的研究与实现被引量：43