运用文本领域的常识改善基于支撑向量机的文本分类器性能被引量：16

Improving the Performance of the Text Classifier Based on Support Vector Machine Using the Common Sense in Text Domain

下载PDF

导出

摘要本文提出了一种提高中文文本分类器推广性能的方法。一般而言 ,采用机器学习的方法对文本集合进行训练 ,可以获得文本分类器。本文引入了文本语义不变性常识 ,并将其融合到文本分类器中 ,提出了改进文本分类器的方法。与支撑向量机相结合 ,设计并实现了改进的文本分类器。对中文文本分类的实验表明。 In the paper,a method to improve the generalization performance of the Chinese text classifier is put forward.Generally speaking,a text classifier is obtained by training text set with a machine learning method.A kind of common sense about text semantic invariance is introduced.A method to improve the text classifier is put forward by fusing the common sense into it.With the combination with a Support Vector Machine,we design and implement the improved text classifier.The experiment shows that the generalization performance of the text classifier is improved with the method.

作者李辉史忠植许卓群

机构地区中科院计算技术研究所智能信息处理重点实验室北京大学计算机系

出处《中文信息学报》 CSCD 北大核心 2002年第2期7-13,共7页 Journal of Chinese Information Processing

基金国家自然科学基金 (6 0 0 730 19) 国家自然科学基金重大项目 (6 9790 0 80 )支持

关键词文本分类器同语义文档子段替换人工文档样本相容性条件支撑向量机文本信息机理 Text Categorization Synonymy Sub-Document Replacement Artificial Document Sample Compatibility Condition Support Vector Machine

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1李辉.支撑向量机及其在文本分类中的应用，北京大学博士论文[M].,2001..
2Peter Cord等邵维忠等（译）.Object-Oriented Analysis.Yourdon Press[M].北京:北京大学出版社,1992.65-77.

同被引文献103

1梅勇,王群生,徐秉铮.基于 FoxPro for Windows 的汉语语料库系统的构造[J].华南理工大学学报（自然科学版）,1998,26(1):14-20. 被引量：2
2孙建涛,郭崇慧,陆玉昌,石纯一.多项式核支持向量机文本分类器泛化性能分析[J].计算机研究与发展,2004,41(8):1321-1326. 被引量：16
3余芳,姜云飞.一种基于朴素贝叶斯分类的特征选择方法[J].中山大学学报（自然科学版）,2004,43(5):118-120. 被引量：24
4段慧明,松井久仁於,徐国伟,胡国昕,俞士汶.大规模汉语标注语料库的制作与使用[J].语言文字应用,2000(2):72-77. 被引量：20
5周新栋,王挺.基于N元语言模型的文本分类方法[J].计算机应用,2005,25(1):11-13. 被引量：11
6莫宏伟,唐娜,金鸿章,徐立芳,吕淑萍,管凤旭.免疫阴性选择分类器在信息恢复中的应用[J].计算机学报,2005,28(8):1314-1319. 被引量：7
7陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
8朱峰,吕镇.国内游客对饭店服务质量评论的文本分析——以e龙网的网友评论为例[J].旅游学刊,2006,21(5):86-90. 被引量：105
9苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：383
10伍建军,康耀红.文本分类中特征降维方式的研究[J].海南大学学报（自然科学版）,2007,25(1):62-66. 被引量：4

引证文献16

1李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
2燕继坤,张震,郑辉.变形网格及其在图像识别中的应用[J].电子与信息学报,2004,26(8):1183-1189. 被引量：4
3李文翔,晏蒲柳,夏德麟.基于内容主题的语料库系统设计与实现[J].计算机应用研究,2004,21(10):149-151. 被引量：15
4王元珍,钱铁云,冯小年.基于关联规则挖掘的中文文本自动分类[J].小型微型计算机系统,2005,26(8):1380-1383. 被引量：13
5宋艳娟,张文德.基于XML的PDF文档信息抽取系统的研究[J].现代图书情报技术,2005(9):10-13. 被引量：16
6田晓宇,梁静国.支持向量机在文本自动分类中的应用研究[J].情报学报,2006,25(2):208-214. 被引量：7
7马金娜,田大钢.基于SVM的中文文本自动分类研究[J].计算机与现代化,2006(8):5-8. 被引量：8
8张彰,樊孝忠.一种改进的基于VSM的文本分类算法[J].计算机工程与设计,2006,27(21):4078-4080. 被引量：8
9胡燕,吴虎子,钟珞.中文文本分类中基于词性的特征提取方法研究[J].武汉理工大学学报,2007,29(4):132-135. 被引量：26
10马金娜,田大钢.基于支持向量机的中文文本自动分类研究[J].系统工程与电子技术,2007,29(3):475-478. 被引量：14

二级引证文献135

1徐朝军.基础教育资源目录系统的设计与实现[J].电化教育研究,2009,30(3):71-75. 被引量：3
2王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
3徐义晗.基于struts架框的AMSystem系统设计[J].硅谷,2008,1(21):65-66.
4李万辉,林瑞明,张文德.台湾科技文献信息抽取与检索平台的设计与实现[J].图书馆学研究（应用版）,2010(6):71-75.
5张丽莎,张贵,龙朝夕,张盛.林业专题动态信息的搜索与集成[J].中南林业科技大学学报,2013,33(5):47-51. 被引量：3
6钱铁云,王元珍,冯小年.利用prefix-hash-tree实现从中文文本到事务数据的转换[J].计算机科学,2005,32(5):167-169.
7王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
8邹娟,周经野,邓成,高南莎.特征词提取中同义处理的新方法[J].中文信息学报,2005,19(6):44-49. 被引量：10
9刘西林.中国式激励[J].人才资源开发,2005(10):35-36. 被引量：1
10李玉荣,杨树强,贾焰,周斌,樊宇.分布式日志服务关键技术研究[J].计算机工程与应用,2006,42(7):116-118. 被引量：5

1赵宏亮,杨鹤标.面向领域的语义搜索引擎的应用研究[J].计算机工程与设计,2012,33(5):1801-1805. 被引量：5
2于亚新,王国仁,于戈.XBASE:一个语义文档数据库系统[J].小型微型计算机系统,2004,25(4):613-616.
3阿里甫.库尔班,吐尔根.伊布拉音,吾买尔江.库尔班.维吾尔语框架语义文档数据模型的研究[J].新疆大学学报（自然科学版）,2009,26(1):107-110. 被引量：1
4张贵生,王平.基于不变性常识的支持向量分类机[J].硅谷,2010,3(10):60-60.
5范河淋,吴江,张德同.文档管理系统的语义模型研究[J].微计算机信息,2008,24(36):244-245. 被引量：1
6武子英.基于模糊模式识别的中文文本分类器的设计与实现[J].科技情报开发与经济,2005,15(16):228-230. 被引量：1
7阮义彰,童伟淮,潘翔,章国栋.结合热核信号和测地距离的三维模型紧密对齐[J].计算机科学,2015,42(S1):199-202. 被引量：1
8罗雪春,张雯.一个可视化语义文档数据库系统[J].情报科学,2002,20(7):749-752.
9郭猛,冯志勇.基于本体实现有效Web信息检索[J].微处理机,2007,28(4):116-119. 被引量：1
10张杰,战学刚,冯金平,陈文亮.中文文本分类器的评价[J].鞍山科技大学学报,2005,28(3):231-234. 被引量：1

中文信息学报

2002年第2期

浏览历史

内容加载中请稍等...

运用文本领域的常识改善基于支撑向量机的文本分类器性能被引量：16

参考文献2

同被引文献103

引证文献16

二级引证文献135

相关作者

相关机构

相关主题

浏览历史

运用文本领域的常识改善基于支撑向量机的文本分类器性能 被引量：16

参考文献2

同被引文献103

引证文献16

二级引证文献135

相关作者

相关机构

相关主题

浏览历史

运用文本领域的常识改善基于支撑向量机的文本分类器性能被引量：16